David Madore's WebLog: Méditation la complexité des conjugaisons françaises et inflexions linguistiques en général

Avertissement préliminaire : je vais faire référence dans ce billet à plein de langues (français, latin, grec, mais aussi allemand, russe, sanskrit, arabe). Ces langues ne servent qu'à illustrer mon propos général sur la complexité des inflexions, et il va de soi que je ne suppose pas qu'on les connaît (moi-même, je n'y connais pas grand-chose), et je ne vais généralement même pas m'embêter à donner le sens des mots que j'utilise comme exemples parce que ça n'a aucune pertinence pour ce que je raconte. De même, il faut considérer les noms des traits grammaticaux comme des mots dénués de sens : peu importe ce qu'est que l'aoriste à part que c'est un temps de la conjugaison des verbes grecs. (Prenez ça comme un mot à la fois technique et poétique : cf. d'ailleurs ce vieux fragment littéraire que je ne peux pas ne pas référencer ici.) J'ai aussi fait quantité de digressions marquées par des notes en petits caractères : on peut les sauter, ou au contraire ne lire que ça, de toute façon tout ceci est un rant un peu décousu, ce n'est pas comme s'il y avait un plan ou des dépendances entre les parties.

Comme le terme linguistique de paradigme inflexionnel n'est pas forcément clair pour tout le monde (je ne suis même pas sûr que ce soit le bon), ce dont je parle est l'ensemble des formes que peut prendre un même mot (ou plus exactement un même lexème) à travers l'application de différents traits grammaticaux. Comme cette définition n'est elle-même pas forcément claire pour tout le monde, un exemple familier pour tous les francophones est celui des tableaux de conjugaison, par lesquels un même verbe (lexème verbal), représenté par sa forme de dictionnaire qui, s'agissant du français, est l'infinitif, prend des formes (inflexions) diverses selon des traits grammaticaux appelés mode, temps et personne (ou nombre+personne). Les conjugaisons latines et grecques sont aussi des paradigmes inflexionnels, avec à peu près les mêmes traits que pour le français (la liste des modes et temps change, et le grec classique a un nombre duel, mais l'idée est la même ; une autre différence est que pour ces langues la forme du dictionnaire, c'est-à-dire la manière dont on va ranger le verbe dans un dictionnaire, est la première personne du singulier de l'indicatif présent au lieu d'être l'infinitif, mais c'est un détail). Un autre exemple est celui des tableaux de déclinaisons latines ou grecques[#], qui pour un même nom (lexème nominal, dont la forme de dictionnaire est le nominatif singulier) donnent des formes variées en fonction de deux traits appelés nombre et cas, ou, s'agissant des adjectifs, trois traits appelés genre, nombre et cas.

[#] Ou bien sûr de plein d'autres langues. Mais attention, une langue peut avoir des cas sans pour autant avoir vraiment de déclinaisons. En allemand, par exemple, les déclinaisons portées par les noms sont quasiment vestigiales (à part la marque du pluriel, pour la plupart des mots il ne subsiste qu'un -n au datif pluriel et, s'agissant des féminins et neutres, un -s au génitif singulier ; ou pour les noms dits faibles, la déclinaison est essentiellement juste marquée par un -n partout). La marque des cas en allemand est essentiellement sur les articles ou adjectifs (avec des règles un peu tordues sur ces derniers), et comme je ne crois pas qu'il existe d'adjectif irrégulier, ce n'est pas vraiment le genre d'inflexion dont je parle dans ce billet.

Conjugaison des verbes et déclinaison des noms et adjectifs sont les paradigmes inflexionnels les plus familiers aux personnes qui auront appris des langues comme le français, le latin, le grec classique, le sanskrit ou l'arabe. Mais il peut évidemment y avoir plein d'autres choses : on peut tout à fait imaginer une langue où les adverbes varient (par exemple qu'ils s'« accordent » avec le verbe comme les adjectifs s'accordent avec les noms dans les langues que je viens de lister) ; en japonais, on peut dire que les adjectifs (enfin, certaines sortes de mots qu'on pourrait qualifier d'adjectifs) varient avec le temps ; et la division des mots en verbes, noms, adjectifs, etc., est valable pour les langues indo-européennes et sémitiques mais pas forcément transportable partout. Bref, j'utilise le terme paradigme inflexionnel pour être plus large que tableaux de conjugaison et de déclinaison, mais comme je n'ai pas de bon exemple à proposer au-delà de la conjugaison et de la déclinaison, imaginez les conjugaisons et les déclinaisons si vous êtes familiers avec ça (ou d'ailleurs, juste les conjugaisons parce que je vais surtout parler de ça).

Toutes les langues n'ont pas de mécanisme inflexionnel. Si le grec classique, le russe et l'arabe en ont de fort complexes, le chinois n'en a aucun[#2] (tous les mots chinois sont invariables), et ceux de l'anglais sont considérablement plus simples que ceux du français. Les langues scandinaves font varier le verbe avec le temps/mode mais pas avec la personne, ce qui fait déjà moins de traits que le français ou l'allemand.

[#2] Bon, quand on parle de linguistique, il faut toujours ajouter des on peut considérer que ou des en première approximation partout. Je suis sûr que si je ne mettais pas cette note il y aurait un gros malin pour me dire que well, actually, on peut considérer que <…> est un mécanisme inflexionnel en chinois : donc je mets cette note pour cette fois-ci, mais n'hésitez pas à l'insérer dans la suite à chaque fois que quelqu'un risque de dire well, actually.

Bien sûr, ce n'est pas toujours parfaitement clair ce qui constitue exactement les inflexions d'un même lexème (pourquoi dirait-on que le passage du singulier possible au pluriel possibles est une inflexion alors que le passage de possible à impossible est une dérivation lexicale ? c'est un chouïa arbitraire[#3][#4]), mais comme d'hab' je vais rappeler que ce n'est pas parce que ce n'est pas totalement clair que ça n'a pas de sens.

[#3] Un exemple d'arbitraire est celui des aspects du verbe russe : un verbe russe (comme dans l'essentiel des autres langues slaves, mais le russe est le seul que je connais un petit peu) vient par paires avec une forme, ou aspect, appelée perfectif et une autre appelée imperfectif. Certains temps peuvent être utilisés sur l'un ou l'autre aspect, avec une différence de sens (le perfectif envisage l'action accomplie, ou son résultat, tandis que l'imperfectif envisage l'action en train d'être accomplie, c'est-à-dire son déroulement) ; certains temps sont formellement le même aux deux aspects mais donnent des temps différents (la forme qui donne le présent de l'aspect imperfectif devient un futur pour l'aspect perfectif) ; certains temps n'existent que pour un des deux aspects. Doit-on considérer que le perfectif et l'imperfectif sont deux formes d'un même verbe, comme le singulier et le futur d'un nom ? Ou doit-on au contraire considérer que ce sont deux verbes différents, qui se complètent ? Je suppose que des grammairiens du russe ont passé des pages et des pages à expliquer que l'un ou l'autre de ces points de vue est meilleur que l'autre, et je ne suis pas compétent pour trancher, comme pour le sexe des anges. Pour que je veux raconter ici, il vaut sans doute mieux considérer pragmatiquement que le perfectif et l'imperfectif sont deux verbes distincts, parce qu'essayer de deviner le perfectif à partir de l'imperfectif ou vice versa semble essentiellement impossible (d'ailleurs, pour les verbes « simples » c'est plutôt le perfectif qui dérive de l'imperfectif alors que pour les verbes à préfixe c'est plutôt le contraire). Mais en tout cas, ça montre une difficulté à définir exactement ce qu'on appelle un paradigme inflexionnel.

[#4] Un autre exemple d'incertitude sur ce que c'est qu'un « lexème » et un « paradigme » est celui des formes dérivées des verbes arabes. Un verbe arabe est normalement une racine à trois consonnes, et cette racine, connue sous le nom de forme I, peut directement donner un tableau de conjugaison, qui est d'une taille relativement raisonnable (il y a moins de temps et modes qu'en français ou en latin, pour ne rien dire du grec, mais en contrepartie il y a plus de personnes parce que la distinction masculin/féminin est faite en plus de celle de nombre à la 2e et 3e personnes). La complication, c'est que chaque racine peut donner une douzaine ou une quinzaine de formes dérivées (formes II à XV, parfois on en ajoute encore d'autres, même si en vrai les formes I–X et peut-être XII sont les seules vaguement courantes) : le sens de ces formes dérivés est variable et elles n'existent pas toutes, mais leur fabrication à partir de la racine est assez systématique, et ensuite chacune d'entre elles est un verbe qui a son propre tableau de conjugaison. Faut-il considérer qu'un paradigme flexionnel de verbe arabe est l'ensemble de toutes les conjugaisons de toutes les formes dérivées (auquel cas ils sont très volumineux) ? Ou seulement d'une seule d'entre elles (auquel cas ils sont plus raisonnables, mais il y a une multiplication des types de conjugaisons) ? C'est un peu le problème dual du russe évoqué à la note précédente : le perfectif/imperfectif des verbes russes ont un sens fixe mais une formation qui dépend de chaque verbe, alors que les formes dérivées des verbes arabes ont une formation claire mais un sens qui varie.

Quand je parle de complexité, ce qui compte n'est pas tellement le nombre de traits grammaticaux qu'on peut ajouter. Une langue qui aurait des déclinaisons avec 50 cas bien réguliers serait toujours plus simple à apprendre qu'une langue qui a seulement 3 cas mais avec des centaines de paradigmes différents pour les former, des exceptions de partout, etc. C'est essentiellement de cette complexité que je veux parler ici. (Je proposerai à la fin une piste pour essayer de la définir de façon un peu objective et pas juste par l'impression subjective de la difficulté à apprendre la langue ou à mémoriser ces tableaux, mais je commence par des remarques un peu éparses.)

Je ne m'intéresse pas du tout au sens des traits grammaticaux. Comme je l'ai écrit dans l'avertissement liminaire, pour ce que je raconte ici, peu importe ce que c'est qu'un cas, ou ce que signifient le nominatif, l'accusatif, le génitif ou le trucbidulatif, peu importent que les temps du verbe s'appellent présent, passé et futur ou des choses plus bizarres comme aoriste ou prétérit, peu importe que parfait et inchoatif soient des temps ou des aspects, tout ça est hors de propos ici : ce sont juste des étiquettes arbitraires que la grammaire utilise pour décrire des façons de modifier un lexème. Je parle juste de la complexité de répondre à des questions du genre[#5] :

En français, quelle est la 3e personne du singulier de l'indicatif présent des verbes coudre et résoudre ? (Réponses : il coud et il résout.)
En latin, quel est l'ablatif singulier du nom animal ? (Réponse : animali.)
En grec classique, quelle est la 1re personne du pluriel de l'optatif futur moyen du verbe βάλλω ? (Réponse : βαλοίμεθα.)
En russe, quel est l'instrumental du nombre со́рок [sórok] ? (Réponse : сорока́ [soroká].)
En irlandais, quel est le génitif singulier du nom féminin an talamh ? (Réponse : na talún.)
En sanskrit classique, quelle est la 2e personne du singulier de l'impératif (présent) actif du verbe द्विष् [dviṣ] ? (Réponse : द्विड्ढि [dviḍḍhi].)
En arabe classique, quelle est la 3e personne du singulier masculin de l'inaccompli actif du verbe وَفَى [wafá] ? (Réponse : يَفِي [yafī].)

[#5] À part l'arabe, toutes mes langues sont indo-européennes : c'est essentiellement juste un biais de ma part, même s'il semble quand meme plausible que les langues indo-européennes aient tendance à avoir une complexité inflexionnelle plutôt plus importante que la moyenne (si tant est que « la moyenne » ait un sens). Encore une fois, ça ne veut pas forcément dire qu'elles aient beaucoup de formes, plutôt beaucoup d'irrégularités : les inflexions du turc, de ce que je comprends, sont globalement très régulières, donc plutôt plus simples que celles des langues indo-européennes typiques. Bien sûr, quand je dis plutôt plus complexes que la moyenne, ça ne veut pas dire que ce soit le maximum, loin de là : les gens ayant tenté d'apprendre le géorgien doivent certainement rigoler que je décrive les conjugaisons du grec ancien comme compliquées.

Pas sûr que mes réponses ci-dessus soient correctes, mais ça fait justement partie de ce dont je veux parler : quelles sources consulter pour trouver les bonnes réponses ?

Les conjugaisons du français font partie de la difficulté de cette langue. Pas juste pour les non francophones qui apprennent le français, mais aussi pour les petits Français à l'école (et même pour beaucoup d'adultes).

Ce qui est un peu inhabituel[#6] avec le français, c'est qu'une bonne partie de l'inflexion en question est muette, i.e., ne laisse aucune trace à l'oral, ces difficultés avec la conjugaison n'apparaissant qu'à l'écrit : comme on n'apprend nativement que la langue orale, ces difficultés qui ne s'entendent pas doivent être apprises plus tardivement, à l'école, et c'est la raison pour laquelle les francophones ont eux-mêmes beaucoup de difficultés avec certains aspects de leur langue. Je veux dire, pour un chinois, les verbes français ou italiens ou espagnols doivent présenter en gros le même niveau de difficulté à apprendre (d'ailleurs, pas juste le même niveau, mais un peu les mêmes points précis), mais pour les locuteurs natifs de ces langues la différence est que dans le cas de l'italien ou de l'espagnol on apprend la conjugaison à l'oral, alors qu'en français on n'en apprend qu'une partie à l'oral et arrivé à l'école on apprend les règles byzantines qui disent qu'il « faut » écrire il faut qu'on se voie avec un ‘e’ et je viendrai demain sans ‘-s’, et quel choix aléatoire entre ‘-t’ et ‘-d’ ont fait les verbes en -dre et ce genre de choses[#7].

[#6] On peut certainement trouver d'autres exemples de langues comme ça (je n'en connais pas, même si je soupçonne que les russes doivent avoir du mal entre les ‘е’ et ‘и’ inaccentués et entre les ‘а’ et les ‘о’ inaccentués, ce qui doit bien poser des problèmes ici ou là dans les conjugaisons ou déclinaisons), donc je ne prétends certainement pas que le français soit unique, mais disons au moins que c'est une situation peu courante qu'il y ait des paradigmes inflexionnels complexes qui soient en bonne partie muets.

[#7] Donc, si un Français peut hésiter entre je vois et que je voie, ou entre je viendrai et je viendrais, un Italien ne va pas hésiter entre io vedo et che io veda ou entre io verrò et io verrei parce que la différence s'entend. Ce n'est pas que la conjugaison italienne est plus dure ou plus facile que la française, c'est juste que les italiens l'apprennent complètement plus tôt, à l'oral. Je suppose que les petits Athéniens n'avaient pas de doute sur le nombre de ‘λ’ au futur de βάλλω[#8].

[#8] Je prends régulièrement cet exemple, parce qu'il y a un passage des Essais de Montaigne (j'ai la flemme de le retrouver) où il se moque des vieux grincheux qui se moquent des petits jeunes qui ne savent pas le nombre de ‘λ’ au futur de βάλλω. Comme quoi les vieux cons qui se plaignent que les jeunes ne savent plus écrire de nos jours, ça ne date pas d'hier.

Ces difficultés orthographiques du français sont d'ailleurs utilisées pour la discrimination sociale : comme elles sont difficiles à apprendre parce qu'on ne s'y met que tard et qu'on n'a qu'un temps limité à l'école, on n'y arrive vraiment que si on a une famille qui déjà les maîtrise bien, et du coup cela devient un marqueur social, et les gens qui connaissent bien les « bonnes » formes aiment croire que les autres sont moins intelligents. Avec comme variante les vieux cons qui aiment dire que les jeunes ne savent plus écrire de nos jours. Mais passons, ce n'est pas de ça que je veux parler (même si c'est un sujet qui me semble important).

Comment connaît-on la bonne forme, donc (en français ou dans une autre langue à inflexions) ?

Normalement, l'idée c'est de consulter un dictionnaire ou une grammaire. Mais les dictionnaires n'ont qu'une place limitée, il est impossible d'envisager que chaque verbe soit suivi de la totalité de ses formes conjuguées (et, pour les langues à déclinaison, que chaque nom ou adjectif soit suivi de la totalité de ses formes déclinées, même si celles-ci sont moins nombreuses). Les grammaires, elles, vont donner des tableaux des formes « typiques » (si tant est que ça ait un sens), mais elles ne peuvent pas donner celles de tous les verbes de la langue. Il faut donc une autre solution.

En France, un ouvrage a acquis une renommée particulière, c'est le Bescherelle. Bien sûr, tout dictionnaire digne de ce nom doit avoir des tableaux de conjugaison permettant de retrouver les formes de tous les verbes, mais le Bescherelle c'est un peu la référence standard à l'école, parce que sa présentation est particulièrement simple, au prix d'un certain volume de papier puisque le livre est entièrement consacré à ça. L'idée c'est qu'on regarde juste un infinitif dans l'index, il renvoie à un numéro (entre 1 et 88), on consulte le tableau correspondant à ce numéro, et on a la conjugaison complète[#9] du verbe qu'on cherchait (le tableau ne donne pas forcément exactement le verbe qu'on cherchait, mais il donnera un verbe qui se conjugue « pareil » avec une définition de pareil assez étroite[#10] pour que même un écolier arrive à trouver la forme qu'il cherchait).

[#9] Enfin, complète… Comme je l'avais fait remarquer il y a des années, il y a au moins une forme qui manque dans le Bescherelle, à savoir la forme de la première personne du singulier postposé (rien dans le Bescherelle ne permet de deviner que je jette devient jeté-je quand on inverse le sujet, et d'ailleurs les règles à ce sujet sont excessivement mal documentées).

[#10] À condition de penser à consulter les notes en bas du tableau, qui ne sont pas forcément si évidentes que ça à lire. Par exemple, si vous consultez interdire dans l'index, on va vous renvoyer à dire mais avec une note qui précise que, par exception, on ne dit pas (à la 2e personne du pluriel de l'indicatif présent) *vous interdites mais vous interdisez. Donc en fait la consultation de l'ouvrage n'est pas si commode que ça, et il y aurait peut-être eu lieu de faire un truc plus volumineux qui sépare systématiquement les tableaux pour lesquels le Bescherelle a trouvé nécessaire de faire une note de ce genre.

Mais bon, même si on a un livre qui donne toutes les formes, il faut bien trouver un moyen de les apprendre, du moins ce qu'on n'a pas inféré par ce qu'on a entendu tout petit (soit parce que c'était caché à l'oral, comme une partie des conjugaisons du français, soit parce qu'on a une autre langue maternelle). On ne va pas donner à un débutant en français l'intégralité du Bescherelle en lui disant apprends ça par cœur, et débrouille-toi pour trouver la logique interne.

La première chose c'est que les grammairiens essaient généralement de faire des classes de mots qui s'infléchissent « au moins un peu pareil » : on représente chaque classe par un mot-type. C'est ainsi qu'en latin on a décidé qu'il y avait 5 déclinaisons modèles (= classes de noms) et 4 ou 5 conjugaisons modèles (= classes de verbes), et ça ne marche pas trop mal. Mais cette typologie est un peu arbitraire, les grands types admettent des sous-types[#11]. En grec classique, il n'y a que 3 déclinaisons d'après les grammaires que j'ai eues, mais chacune a tellement de sous-types et de sous-sous-types qu'on a l'impression qu'il devrait plutôt y en avoir 70 ; quant au verbes grecs, c'est un tel chaos qu'on ne tente même pas de les grouper en classes. En sanskrit[#12] il me semble qu'il est assez standard de distinguer dix classes de verbes, par contre les classes de noms ne son pas numérotées de façon standard. En russe, j'ai vu des descriptions des conjugaison avec un nombre de classes qui vraie du tout au tout, chacune prétendant être meilleure que les autres.

[#11] Déjà les noms neutres ne se déclinent pas comme les non-neutres de la meme déclinaison, donc en fait devraient logiquement être des déclinaisons à part, mais par ailleurs au moins dans la troisième déclinaison il y a beaucoup de variations : corpus fait corpore à l'ablatif singulier tandis que animal fait animali alors qu'ils sont censés être tous les deux des neutres dans la même 3e déclinaison : on peut se demander pourquoi on les a rangés ensemble, du coup. La vérité, c'est que la déclinaison est essentiellement juste déterminée par la désinence du génitif singulier, ce n'est pas vraiment une typologie complète.

[#12] Quelque part il faut que je fasse une note au sujet du sanskrit pour signaler le point intéressant suivant : contrairement au français qui prend le singulier pour les noms et l'infinitif pour les verbes, au latin et au grec qui prennent le nominatif singulier pour les noms et la 1re personne du singulier de l'indicatif présent pour les verbes (je ne sais pas à quand remontent ces conventions !), ou encore l'arabe qui prend la troisième personne du singulier masculin de l'accompli pour les verbes (parce que c'est la forme la plus « brute »), la forme de dictionnaire des mots sanskrits est une abstraction grammaticale, c'est-à-dire une forme qui n'apparaîtra pas dans un texte. Et de ce que je comprends, c'est une convention très ancienne (remontant sans doute au moins à Pāṇini). C'est une très bonne idée[#13] parce que ça permet d'isoler une racine pure sur laquelle on peut chercher à coller des affixes, sans s'imposer que cette racine soit effectivement une forme infléchie naturelle.

[#13] Bon, ceci étant, du point de de la philologie indo-européenne, les grammairiens sanskrits n'ont pas vraiment pris la bonne racine (ils ont pris la racine au degré zéro alors qu'il aurait été plus commode de prendre celle au degré ‘e’, qui en grammaire sanskrite se nomme guṇa et dont la voyelle est un ‘a’ ; à cause de ça, ils se sont retrouvés avec des règles inutilement compliquées à certains points, parce qu'il fallait tenir compte des alternances ‘u’/‘o’ comme ‘u’/‘va’ — en sanskrit, le ‘o’ est étymologiquement un ‘av’ : c'est moins évident de savoir où ajouter un ‘a’ s'il faut en ajouter un que de savoir où retirer un ‘a’ s'il n'y en a qu'un). Ceci doit nous rappeler que le choix de la forme utilisée comme forme de dictionnaire ou comme référence de dérivation des tableaux d'inflexion doit être choisie avec soin pour avoir la bonne quantité d'information.

En français, l'éducation nationale française (et peut-être aussi les systèmes éducatifs belge, suisse… je n'en sais rien) prétend que les verbes sont séparés en trois groupes. Cette classification est le plus haut niveau de foutage de gueule que j'aie jamais vu, et j'aimerais bien savoir quelle est son histoire, parce que ce n'est vraiment pas sérieux, et je trouve scandaleux qu'on oblige les enfants à apprendre ça comme si ça allait aider à quoi que ce soit pour les conjuguer, et surtout, scandaleux qu'on leur apprenne ça comme une vérité révélée[#14] sur la langue alors que c'est juste une classification boiteuse et ad hoc. Le premier groupe (celui des verbes en -er) est raisonnablement bien formé (il y a des irrégularités au premier groupe, par exemple jeter fait je jette), mais on a l'impression que ça a un sens de les mettre ensemble. Le deuxième groupe (celui des verbes en -ir ayant un présent en nous -issons) est raisonnable aussi, mais tellement étroit qu'on se demande un peu ce qu'il fait là. Et le troisième groupe est… tout le reste, sans aucune logique, aucune cohérence, aucune similarité entre les verbes. On a un peu l'impression qu'un grammairien un jour a essayé de trouver des paradigmes-types dans les verbes français, a réussi pour le premier et le second groupe puis s'est dit bon, c'est vraiment trop compliqué, je laisse tomber. Peut-être qu'entre cette classification en 3 groupes qui ne nous apprend rien du tout sur le troisième, et celle excessivement pointilleuse en 88 tableaux du Bescherelle il y avait moyen de trouver un juste milieu ? De subdiviser un peu ce troisième groupe fourre-tout. Non ?

[#14] Digression : Il me semble que c'est sans doute un problème général de l'école, qu'on enseigne plein de choses qui sont des conventions arbitraires en oubliant d'expliquer aux enfants que ces choses sont des conventions arbitraires (et qu'ils ont le droit de les remettre en question). S'agissant de la grammaire, par exemple, je pense qu'il n'est pas du tout clair dans la tête des enfants ce qui est une vérité observationnelle de la langue (que tel mot s'écrit comme ça dans tel contexte, du moins généralement) et ce qui est une convention de description (comme d'appeler telle fonction dans la phrase un complément d'objet direct ou que la personne désignée par le pronom je est considérée comme la « première » et placée en tête des tableaux de conjugaison). Peut-être que les jeunes enfants n'ont pas la maturité d'esprit de bien saisir la distinction entre les vérités observables et les conventions, mais peut-être justement qu'une des fonctions de l'école est de les amener à cette maturité. (Mes propres étudiants sont évidemment bien plus âgés que les écoliers à qui on enseigne le Bescherelle, mais j'essaie quand même de bien leur signaler clairement ce qui est une vérité mathématique et ce qui est une simple convention, et dans ce dernier cas si c'est une convention universelle, nationale, ou purement locale à ce cours.) ⁂ [Ajout : voir ce billet ultérieur qui est une sorte de développement de la présente note.]

À défaut de trouver un jeu complet de paradigmes-types, voici une autre approche qui peut servir à décrire l'inflexion d'un mot dans une langue donnée sans avoir à donner le tableau complet : celui des formes de référence. Cela consiste à se dire qu'en donnant un peu plus que juste la forme de dictionnaire, mais un peu moins que le tableau complet, en trouvant un bon ensemble de formes « cardinales », on peut permettre de retrouver le tableau d'inflexion complet, avec si possible pas trop d'exceptions.

Ça ne marche pas mal pour les conjugaisons latines : on donne typiquement quatre ou cinq formes de référence (la 1re personne du singulier de l'indicatif présent qui est d'ailleurs la forme de dictionnaire, souvent la 2e personne du singulier de l'indicatif présent, puis l'infinitif présent, la 1re personne du singulier de l'indicatif parfait, et enfin le supin ; par exemple : amo, amas, amare, amavi, amatum ou lego, legis, legere, legi, lectum). La conjugaison complète se déduit de façon relativement aisée de ces cinq formes : il reste des exceptions, mais il n'y a plus des zillions d'exceptions comme il y en aurait si on ne donnait que la seule forme de dictionnaire.

Dans le cas des conjugaisons latines, les trois première de ces cinq formes de référence définissent le radical du présent et déterminent en gros la moitié de la conjugaison, la suivante définit le radical du parfait et les temps qui s'en déduisent (trois temps de l'indicatif et deux du subjonctif) sont toujours parfaitement réguliers, et la dernière définit le radical du supin qui ne sert pas pour des temps conjugués par personne mais définit notamment le participe passé lequel sert à faire des temps composés, là aussi de façon régulière. Même un verbe comme fero, fers, ferre, tuli, latum qui apparaît a priori comme scandaleusement irrégulier[#15] est déjà beaucoup plus gérable une fois qu'on a ces cinq formes : certes le parfait était impossible à deviner, mais une fois qu'on le connaît on peut en dériver tous les temps de ce radical de façon parfaitement normale.

[#15] Avec un préfixe, ce verbe a donner en français transférer, mais aussi translation (l'action de transférer) à partir du radical du supin.

Dans le cas de ce verbe latin fero, le parfait tuli est en fait étymologiquement un verbe différent qui a été réutilisé pour faire le parfait de fero : on parle de supplétif. On a le même phénomène dans le verbe français aller, dont on même sans être fortiche en étymologie on se doute bien que le radical du futur et du conditionnel j'irai(s), le radical de certaines formes du présent je vais et le radical de l'infinitif ou passé simple aller ont des étymologies différentes (respectivement du latin ire (lui-même irrégulier), vadere et ambulare). Bien choisir les formes de référence permet de mettre un peu d'ordre dans ces verbes avec supplétion.

Même si la liste des formes de référence n'est pas aussi standardisée qu'en latin, cette approche semble être la seule façon de rendre la conjugaison grecque un peu gérable. Le grec est en effet difficile pour plusieurs raisons. D'abord, il y a un très grand nombre de formes dans un tableau de conjugaison complet (j'en compte 330 [#16] : il y a toujours un peu d'hésitation sur ce qu'il faut compter au juste, mais ça donne l'idée de l'ordre de grandeur : en tout cas c'est impensable de toutes les lister dans un dictionnaire, ni même de faire l'équivalent des tableaux complets du Bescherelle). Ensuite, quasiment chaque temps admet pas mal de modèles possibles, avec notamment des verbes « contractés » qui ont pas mal de possibilités de la voyelle contractée. Enfin, il y a beaucoup de phénomènes de supplétion (l'aoriste normalement utilisé pour le verbe ζῶ, vivre, par exemple, est ἐβίων[#17], qui est simplement l'aoriste d'un autre verbe βιῶ de même sens), et même quand il n'y a pas supplétion, de changements assez imprévisibles du radical[#18]. Bref, les dictionnaires sont obligés de donner plein de temps comme formes de référence (au moins le futur, l'aoriste et le parfait, et souvent l'imparfait, le présent étant de toute façon la forme de dictionnaire ; parfois ils doivent donner séparément la voix active et la voix moyenne), mais ensuite on devrait arriver à en déduire tout le reste : au moins ils n'ont pas à donner tous les modes et toutes les personnes de ces temps.

[#16] Le verbe grec classique a six modes possibles : indicatif, subjonctif, optatif, impératif, infinitif et participe ; il a sept temps possibles : présent, imparfait, futur, aoriste, parfait, plus-que-parfait et futur antérieur ; il a deux ou trois voix : actif et moyen (et parfois passif, mais le plus souvent le passif coïncide avec le moyen) ; et pour les modes qui varient selon la personne, il a trois personnes (comme en français) et trois nombres (singulier, duel et pluriel, même s'il n'y a pas de première personne du duel). Toutes les combinaisons ne sont toutefois pas possibles : par exemple, l'imparfait n'existe qu'à l'indicatif, le futur n'a pas de subjonctif ni d'impératif, bref, ce n'est pas évident à compter mais ce n'est pas surprenant qu'on tombe sur un nombre assez élevé. C'est d'ailleurs beaucoup plus qu'en sanskrit classique, qui a certes une première personne du duel, mais qui n'a pas de subjonctif et n'a que le temps présent à tous les modes autres que l'indicatif (sauf un vague reste d'optatif aoriste). En contrepartie, le sanskrit a tout un système de verbes dérivés (qu'on peut vaguement rapprocher de ceux de l'arabe).

[#17] Là aussi on trouve des dérivés de ces radicaux en français : zoo et bio(logie).

[#18] Il y a un certain nombre de verbes grecs qui ont une alternance vocalique e/∅/o au présent, aoriste et parfait, qui est de très ancienne origine indo-européenne, mais c'est loin d'être une règle utilisable de façon systématique et prévisible.

Il y a un certain nombre de langues où les formes de référence sont possiblement difficiles ou impossibles à deviner, mais où la difficulté de la flexion est complètement résolue une fois qu'on a ces formes. C'est le cas des conjugaisons dans les langues germaniques. Par exemple, à part deux-trois verbes très courants, les conjugaisons de l'allemand sont complètement régulières une fois qu'on a trois ou quatre formes de référence, un peu les mêmes qu'en latin (infinitif, prétérit, participe passé, et éventuellement troisième personne du singulier de l'indicatif présent : sehen, sah, gesehen, sieht). En anglais, la conjugaison se résume essentiellement à ces seules formes : see, saw, seen. Dans ces langues, apprendre les conjugaisons revient donc essentiellement à apprendre des tables de ces formes de référence.

J'ai pris ci-dessus l'exemple de la conjugaison des verbes, parce que dans les langues indo-européennes les verbes ont tendance à avoir plus de formes infléchies que les noms, mais les formes de référence peuvent servir pour les noms aussi. Pour le déclinaisons latines ou grecques on donne deux formes de référence (le nominatif singulier et le génitif singulier), ça ne marche pas trop mal mais quand même moins bien que pour la conjugaison. Dans beaucoup de langues, les formes de référence pour les noms seront simplement le singulier et le pluriel. Pour l'arabe classique, par exemple, les déclinaisons sont globalement bien régulières (l'essentiel des noms fait juste -u au nominatif, -a au cas direct et -i au cas indirect), mais le pluriel est essentiellement impossible à deviner d'après le singulier (il y aura un changement de voyelle, ou une voyelle allongée, ou une consonne redoublée, ou quelque chose comme ça, et vous n'aurez aucune idée de quoi), donc il faut juste l'apprendre par cœur au moment où on apprend le nom.

Je ne sais pas pourquoi cette approche par formes de référence ne semble pas utilisée dans l'enseignement des conjugaisons du français. En tout cas elle ne l'est pas dans l'enseignement du français aux petits Français ; peut-être qu'elle l'est pour le français langue étrangère. Peut-être qu'elle n'est pas vraiment adaptée parce que les irrégularités de la conjugaison française, bien que moins nombreuses que celles du grec, sont réparties plus aléatoirement dans les tableaux de conjugaison, ce qui casse un peu le principe même de donner des formes de référence. (Pour le présent de l'indicatif il me semble qu'il n'y pas une seule forme qui se déduit de façon systématique d'une autre, ce qui est quand même vexant ! Par exemple on pourrait penser que la 2e personne du pluriel se déduit de la 1re personne du pluriel en remplaçant -ons par -ez, mais, outre que ça prédit *vous disez au lieu de vous dites, ça bute aussi sur la difficulté de nous mangeons qui devient vous mangez et pas *vous mangeez.)

Néanmoins, essayer de définir un radical du passé simple comme il y a en latin un radical du parfait permettrait par exemple de faire remarquer que l'indicatif passé simple et le subjonctif imparfait des verbes français sont quand même bien réguliers : si on connaît une seule forme d'un de ces deux temps, on connaît les autres, il n'y a que peu de variabilité et quasiment aucune exception[#19]. C'est le genre de choses que j'avais remarqué moi-même en essayant de trouver de la logique dans le Bescherelle quand j'étais petit, mais je ne crois pas qu'on m'ait jamais fait cette remarque à l'école.)

[#19] Il y a juste deux types pour l'indicatif passé simple, celui en -ai/-as/-a/-âmes/-âtes/-èrent et celui en -Vs/-Vs/-Vt/-V̂mes/-V̂tes/-Vrent pour une voyelle V qui peut être ‘i’ ou ‘(e)u’ éventuellement suivie d'un ‘n’. Il faut ajouter quelques règles pour expliquer que je mangeai fait ils mangèrent et pas *ils mangeèrent, et que je haïs fait nous haïmes et pas *nous haï̂mes avec tréma et circonflexe superposés, encore que, vous savez, je pense que je l'écrirai maintenant comme ça si jamais je dois le faire. Toujours est-il que ces règles sont quand même raisonnablement simples par rapport à celles du présent. Quant au subjonctif imparfait, il s'obtient toujours à partir de la 2e personne du singulier de l'indicatif passé simple en retirant le -s et en mettant les désinences -sse/-sses/-̂t/-ssions/-ssiez/-ssent (la seule exception est qu'il haït, toujours parce que quelqu'un a décidé qu'on ne pouvait pas superposer un circonflexe et un tréma, et je ne vois pas pourquoi je croirais ce quelqu'un si bien que j'écrirai désormais qu'il haï̂t même si c'est un peu dur de placer cet imparfait du subjonctif précis).

Je ne sais pas combien de formes il faudrait donner d'un verbe français pour permettre de retrouver la totalité de sa conjugaison avec très peu d'exceptions (tout dépend de quel niveau on autorise comme très peu et ce qu'on permet comme complexité derrière le retrouver, bien sûr).

Évidemment, si on est censé connaître toute la conjugaison, le fait d'avoir défini des formes de référence ne fait que repousser le problème : il faudra bien les apprendre si on veut parler la langue. Mais c'est au moins plus commode pour la consultation de dictionnaires, et ça doit aider à l'apprentissage (par exemple si on est plutôt auditif on peut apprendre lego, legis, legere, legi, lectum comme une petite comptine[#20]) : au moins, ça aide à attirer l'attention sur les formes où il faut faire attention (si on vous donne le tableau complet à chaque fois, vous n'allez pas forcément remarquer que sur ce verbe-là telle forme est surprenante, alors que s'il y a cinq formes de référence, c'est plus facile).

[#20] C'est peut-être idiot, mais la raison pour laquelle j'ai vaguement réussi à retenir les temps des verbes latins et pas ceux des verbes grecs, c'est qu'en latin il y avait cet ordre fixé des formes de référence, donc je pouvais ânonner capio, capis, capere, cepi, captum ou ce genre de choses, alors qu'en grec il n'y avait pas une petite musique analogue.

Les formes de référence répondent aussi peut-être à ce petit secret des grammairiens, qui est à quel point il faut s'assurer qu'une forme est attestée. Parce que quand j'écris ci-dessus que la 1re personne du pluriel de l'optatif futur moyen du verbe βάλλω est βαλοίμεθα, je suis, en fait, un peu sceptique sur le fait qu'il y ait vraiment une occurrence de la 1re personne du pluriel de l'optatif futur moyen du verbe βάλλω dans le corpus de textes grecs que nous avons (pour info, ça veut dire quelque chose comme que nous jetions [pour nous, dans le futur, en émettant un souhait]), en tout cas quasiment toutes les occurrences renvoyées par Google sont des tableaux de conjugaison et les quelques uns qui n'en sont pas n'ont pas l'air d'une fiabilité démesurée, et je n'ai pas trouvé d'occurrence sur Perseus même si je ne suis pas sûr d'avoir correctement entré le mot. Même si ce verbe précis se trouve bien à cette forme précise quelque part dans le corpus, je peux certainement trouver un autre verbe un chouïa plus rare et dont la forme, quoique indiquée comme régulière par les tableaux de conjugaison, n'apparaîtra dans aucun texte : on aura juste inféré cette forme parce qu'il n'y a aucune raison qu'elle soit irrégulière. C'est-à-dire que les tableaux de conjugaisons grecs sont au moins en bonne partie des constructions théoriques.

C'est normal : ce n'est tout simplement pas possible que pour les 330 formes que contient chaque tableau de conjugaison d'un verbe grec (si j'ai bien compté ; par comparaison, pour le français c'est plutôt 48 formes par verbe) multiplié par les N verbes du dictionnaire quelqu'un ait soigneusement vérifié qu'on avait au moins un exemple dans le corpus et sinon marqué le verbe comme possiblement défectif : on vérifie juste que les formes de référence (ou d'autres qui s'y ramènent) se trouvent, pas chaque combinaison de chaque verbe, mode, temps, voix et personne. À un certain niveau, on doit postuler une certaine régularité, et de même elle est inévitable pour que la langue soit apprenable ne serait-ce que par ses locuteurs natifs (qui ont bien existé).

Bref, tout ça c'est le bordel.

Mais c'est un bordel dans lequel on est quand même forcé de se retrouver, parce que, bon an mal an, des gens apprennent les langues (même le géorgien ! les fous !), et il faut bien leur donner un moyen de trouver toutes ces formes, et de répondre aux questions comme quelle est la 1re personne du pluriel de l'optatif futur moyen du verbe βάλλω ?.

Et à l'ère d'Internet et des ordinateurs, on n'a pas envie de consulter des tableaux compliqués avec des petites notes en bas de page qui vous expliquent que interdire se conjugue comme dire sauf que, par exception, on ne dit pas (à la 2e personne du pluriel de l'indicatif présent) *vous interdites mais vous interdisez : on veut directement un tableau du verbe interdire avec toutes les formes possibles, qu'on puisse recopier sans réfléchir. Par exemple sur Wiktionary en anglais ou en français il y a un tel tableau (il faut cliquer pour dérouler la conjugaison complète, mais elle est bien dans l'article). Comment ces tableaux sur Wiktionary ont-ils été fabriqués ?

Il n'ont pas, évidemment et heureusement, été saisis à la main, pour chaque verbe français / latin / grec / russe / etc. Il y a des bouts de programme dans Wiktionary qui servent à générer les conjugaisons. Ces programmes sont écrits en Lua (je ne rentre pas dans les détails de pourquoi Lua précisément, qui sont pour partie liés à des détails techniques de MédiaWiki et des questions du modèle de sécurité de Lua et des choses qui n'ont rien à voir avec la grammaire, mais il se trouve que ce n'est pas trop pourri comme langage pour écrire ce genre de choses). Bizarrement, les bouts de code qui génèrent les conjugaisons françaises ne sont apparemment pas les mêmes dans le Wiktionary en anglais et en français[#21].

[#21] Je rappelle que Wiktionary a, comme Wikipédia, une édition dans chaque langue, et que chaque édition est censée traduire les mots de toutes les langues possibles ! en gros Wiktionary en anglais est un dictionnaire qui s'adresse aux anglophones, mais un anglophone a parfaitement le droit de vouloir connaître les conjugaisons françaises, ou russes, ou grecques classiques, ou je ne sais quoi, sans devoir forcément passer par le Wiktionary en français ou en russe, ou en grec classique d'ailleurs ce dernier n'existe pas.

Le code Lua qui génère les conjugaisons françaises dans le Wiktionary en anglais est ici, par exemple. Celui qui génère les conjugaisons grecques est ici. Pour le Wiktionary en français, je ne comprends pas bien comment les choses fonctionnent (il y a bien un bout de code ici mais il est évident qu'il ne fait rien d'intéressant tellement il est vague et générique, je ne sais même pas s'il est utilisé : je ne trouve pas, in fine, où sont calculés les tableaux de conjugaisons françaises, ou grecques, ou latines).

Le code pour les conjugaisons grecques est particulièrement impressionnant parce que non seulement il génère des tableaux complets pour le grec classique « standard » (attique, i.e., en pratique, athénien) mais aussi toutes sortes de variantes pour plein de dialectes. Un commentaire pudique est inséré pour attirer l'attention du lecteur sur le fait que ces formes ne sont pas forcément bien attestées (et ceci est un euphémisme) : là aussi, c'est une application très théorique de règles de grammaires pas forcément hyper fiables.

Il est intéressant de regarder ce code (pour le grec, ou le français, ou plein d'autres langues si on arrive à trouver où il se cache) et de voir comment il fonctionne (même si on ne connaît pas le Lua, qui est un langage de programmation fonctionnel raisonnablement banal et lisible, ça vaut la peine d'y jeter un œil). Je trouve que ça soulève plein de questions. D'abord, qui a écrit ces bouts de code, et quels étaient leurs compétences ? Est-ce qu'il vient d'amateurs enthousiastes contributeurs au Wiktionary ou est-ce que des articles de recherche en linguistique ont été utilisés comme base pour le code ? (Y a-t-il de la recherche en linguistique sur la façon de générer algorithmiquement les paradigmes d'inflexion de telle ou telle langue avec un code raisonnablement court et néanmoins clair ?) Ont-ils dû inférer des choses qui manquaient dans les grammaires ? Combien le code a-t-il été vérifié ? A-t-on par exemple vérifié que le code sur le Wiktionary en anglais et celui sur le Wiktionary en français (si j'ai bien compris qu'ils sont distincts) donnent les mêmes tableaux de conjugaison de tous les verbes français répertoriés ? (Ce n'est même pas clair ce que le même veut dire, parce que parfois il y a plusieurs formes alternatives, parfois des formes marquées comme désuètes ou défectives, ce genre de choses.)

Et bien sûr ça soulève une question théorique, qui est celle de la complexité de Kolmogorov des paradigmes inflexionnels d'une langue donnée : pour les non mathématiciens qui me lisent, la complexité de Kolmogorov d'une information (ici, les tableaux de conjugaison), c'est essentiellement la taille du plus court programme possible qui génère cette information. Donc : quelle est la taille du plus court programme Lua (disons) qui, recevant en entrée la forme de dictionnaire d'un verbe français, resp. grec, produit son tableau de conjugaison complet[#22] ? (Le plus court programme possible est impossible à connaître, mais on peut au moins se demander le plus court programme qu'on arrive effectivement à écrire, ou peut-être le plus court programme raisonnablement lisible.) Ensuite, on peut aussi se demander si cette plus courte description algorithmique correspond au moins vaguement à la manière dont on enseigne effectivement la langue et ses irrégularités, et éventuellement se demander si ça ouvre de nouvelles pistes pour l'enseignement du français. On peut aussi chercher à diviser la complexité en deux parties : un bout qui génère les formes de référence (que j'ai définies plus haut) et un autre qui produit toutes les formes à partir de celles-ci ; ceci peut amener à se demander quelle est la meilleure façon de choisir les formes de référence.

[#22] Je m'intéresse ici au sens traits grammaticaux ↦ forme infléchie, qu'on pourrait appeler la synthèse inflexionnelle. Mais évidemment, apprendre une langue, c'est aussi savoir reconnaître les formes infléchies et retrouver les traits grammaticaux correspondant, i.e., dans le sens inverse forme infléchie ↦ traits grammaticaux, qu'on pourrait appeler l'analyse inflexionnelle ; autrement dit, lire βαλοίμεθα et penser 1re personne du pluriel de l'optatif futur moyen du verbe βάλλω. (S'agissant du grec classique, c'est d'ailleurs plus important, parce que l'exercice du thème grec [i.e., le fait de traduire vers le grec] est quand même encore plus ésotérique que celui de la version grecque [i.e., le fait de traduire depuis le grec].) Je suppose qu'il est théoriquement possible d'imaginer une langue où l'analyse inflexionnelle serait plus difficile que la synthèse (bien qu'inambiguë) ; en pratique, cependant, la synthèse inflexionnelle a généralement l'air plus dure que l'analyse.

On pourrait aussi se pencher sur la « complexité mutuelle » de deux langues vis-à-vis des paradigmes inflexionnels : je m'explique. Faire du code qui génère les tableaux de conjugaison français est compliqué, faire du code qui génère les tableaux de conjugaison italiens est compliqué, faire du code qui génère les tableaux de conjugaison espagnols est compliqué ; faire du code capable de générer des tableaux de conjugaison de ces trois langues est forcément plus compliqué que n'importe laquelle des trois, mais sans doute au moins un peu plus simple, si on s'y prend bien, que la réunion des trois codes (parce que dans le pire cas on peut juste faire ça). Mais combien gagnerait-on à ça ? Cela pourrait servir de mesure de proximité.

Bref, il y a toutes sortes de questions qui me semblent intéressantes, et dont certaines ont sans doute été étudiées par des linguistes, mais comme je ne connais pas les bons mots-clés à rechercher je ne trouve rien.

En tout cas il y a quelque chose que je tiens à démonter au passage, c'est le mythe selon lequel toutes les langues sont également difficiles, ou que la mesure de difficulté est purement subjective (car oui, évidemment, il est plus facile pour un Danois d'apprendre le suédois que pour un Chinois). Même si ça ne va pas couvrir tous les aspects de la langue, il y a des mesures de complexité qui sont raisonnablement objectives, et ça a un sens de dire qu'une langue est plus ou moins régulière dans ses inflexions : justement par la complexité de Kolmogorov (mesurée contre un langage de programmation fixé, disons, Lua), qu'on peut approcher en pratique par la longueur d'un code qui tente d'imiter les règles données dans les grammaires de la langue.

Un autre exemple de complexité mesurable des langues, d'ailleurs, même si ça sort du cadre des « paradigmes inflexionnels » comme j'évoque ici, est la taille du programme nécessaire pour convertir un nombre (représenté sous forme informatique) dans son écriture en toutes lettres : j'avais écrit du code Perl pour ça il y a longtemps pour l'anglais et le français (le code français étant capable de générer des noms comme quatre-vingt-dix-neuf ou nonante-neuf selon l'option qu'on lui passe), et ça n'a d'ailleurs fait prendre conscience de plein de petites bizarreries du français (pourquoi est-ce qu'on dit — ou du moins pourquoi est-ce que je dis, parce que je ne sais pas si c'est universel — soixante et un mais quatre-vingt-un pas quatre-vingt et un ? et pourquoi mille et un mais cent un et pas cent et un ?). Il y a certainement plein de langues pour lesquelles la génération des noms de nombres est objectivement beaucoup plus simple que le français ou l'anglais (genre, le chinois) ; à l'inverse, je ne sais pas quelles sont les langues les plus complexes en la matière (le danois et le hindi ont une certaine réputation, mais elle n'est pas forcément justifiée contre une mesure un peu sérieuse de la complexité de Kolmogorov).