Comments on Méditation la complexité des conjugaisons françaises et inflexions linguistiques en général

jonas (2024-04-05T12:48:04Z)

@Ilia Smilga: “Je trouve très rigolotte sur le principe ta proposition de superposer le tréma et l'accent circonflexe dans ‘nous haïmes’.” => David mentions a similar idea in <URL: http://www.madore.org/~david/weblog/d.2012-08-07.2061.html#d.2012-08-07.2061 >, suggesting “nous avons arguë́”, ending in an Echo with tréma and accent aigu.

Ilia Smilga (2024-03-04T22:37:51Z)

Je partage pleinement ta frustration quant au manque de mise en relief des régularités dans le Bescherelle. J'ai appris le français comme langue étrangère (certes ça commence à dater : c'était vers l'âge de 10 ans), donc j'ai été confronté de plein fouet au problème. La conjugaison française m'a toujours été présentée vraiment comme ça : <<Les verbes du 1r et du 2ème groupes sont "réguliers", et voici leur conjugaison. Tous les autres verbes sont "irréguliers" ; pour réussir à les conjuguer, voici le Bescherelle (BLAM !), qu'il faut apprendre par cœur - bon courage.>> (À titre de comparaison, en italien ou en espagnol (que j'ai eu l'occasion d'apprendre plus tard), qui pourtant ont une conjugaison d'une complexité sensiblement similaire, l'approche qui m'a été présentée était beaucoup plus raisonnable : dans ces langues, on reconnaît en général l'existence de verbes "réguliers" dans les trois conjugaisons.)

J'en profite au passage pour me plaindre de cette focalisation sur les apprentissages par cœur bêtes et méchants, que je trouve être vraiment une plaie du système scolaire français. J'ai même eu des professeurs qui ont insisté qu'il était indispendable d'apprendre par cœur même les parties les plus régulières de tous les tableaux de conjugaison (comme l'imparfait du subjonctif, et même les temps composés (!)). L'approche consistant à repérer la régularité, à apprendre la règle, et ensuire retrouver chacun de ces tableaux en "runtime" si je puis dire, était selon eux une hérésie… (De toute façon, en pratique, je ne pense pas que le cerveau humain soit concrètement capable de faire abstraction de ce genre de régularités, et d'apprendre les listes en "bitmap" alors qu'on peut les compresser de façon évidente.)

Il est indéniable que le Bescherelle manque cruellement de structure. Il y a eu un tout petit effort pour le rendre abordable : ses auteurs mettent en rouge certaines formes qu'ils jugent "inattendues". Mais ils le font d'une façon que je ne trouve pas du tout cohérente. (Il me semble que, par exemple, pour certains verbes où ils veulent attirer l'attention sur le radical du passé simple, ils mettent en rouge tantôt les 12 formes qui l'utilisent, et tantôt seulement la première personne du singulier… Bon, ce n'est peut-être pas exactement ça - là je n'ai pas le Bescherelle sous la main pour vérifier - mais en tout cas des choses de ce genre.)

***

La subdivision en 1r, 2ème et 3ème groupe n'est effectivement pas très éclairante. Ces groupes ne sont pertinents que du point de vue du nombre de verbes qu'ils comportent : les verbes "du 1r groupe" sont évidemment majoritaires, les verbes "du 2ème groupe" sont clairement la catégorie la plus nombreuse parmi tout le reste, et le "3ème groupe", c'est effectivement la catégorie fourre-tout. (Soit dit un passant, dire que les verbes du 1r groupes sont "réguliers" est un mensonge, même en ignorant les subtilités orthographiques : un verbe comme "jeter" me paraît à peu près aussi irrégulier que le verbe "battre", et le verbe "envoyer" est, à mon avis, exactement aussi irrégulier que le verbe "choir" si on choisit le futur irrégulier "la bobinette cherra".)

Du point de vue de l'inflexion proprement dite, il y a effectivement une coupure nette entre le 1r groupe d'un côté, et le 2ème + 3ème de l'autre. Ils se distinguent par les jeux de désinences utilisés pour l'indicatif présent et pour le passé simple (avec tout de même quelques exceptions, comme "ouvrir" ou "cueillir" pour le présent et - même si ces formes sont contestées - "extraire" pour le passé simple). Mais ensuite, parmi les verbes autres que le 1r groupe, il me semblerait pertinent de distinguer une demi-douzaine de classes (plutôt que 2) : les verbes en -OIR/-OIRE, les verbes en consonne+RE, les verbes en -IRE, les verbes en -IR du 2ème groupe, les verbes en -IR du 3ème groupe, et peut-être un groupe "fourre-tout" pour tout le reste (-AIRE, -URE, -ORE). Quelques remarques sur ces classes :
- Parmi les verbes en consonne+RE, on trouve un sous-groupe assez nombreux ("perdre", "vendre", "répondre" etc.) dont la conjugaison ne présente vraiment aucune surprise. (À la rigueur, seules les voyelles thématiques du passé simple et du participe passé - respectivement -i- et -u - sont à retenir.) Je pense qu'ils mériteraient vraiment d'être considérés comme "réguliers".
- Curieusement, les verbes du 2ème groupe se rapprochent beaucoup plus des verbes en -IRE, que des verbes en -IR du "3ème groupe". Ces deux premiers ont en commun le fait que le "i" reste présent dans les formes conjuguées (finir -> je finis, suffire -> je suffis), alors que pour les autres, il tombe (dormir -> je dors). (Bien entendu, ces deux premiers se distinguent entre eux par le radical avant voyelle : nous fin-ISS-ons, mais nous suff-IS-ons.) Je suis d'ailleurs vraiment curieux de savoir pourquoi l'orthographe de l'infinitif de tous ces verbes a évolué de façon aussi incohérente ! Je serais tenté de proposer une réforme orthographique pour rajouter un "e" à l'infinitif de tous les verbes "du 2ème groupe"…

***

L'approche des formes de référence me paraît effectivement pertinente pour le français. (Un mot-clé possiblement utile : en anglais, pour désigner ces formes de référence, on parle de "principal parts", cf. https://en.wikipedia.org/wiki/Principal_parts .) J'ai malheuresement découvert cela des années après avoir acquis une bonne maîtrise du français. Il est dommage que cette approche ne soit pas plus répandue ; ça m'aurait été extrêmement utile lors de mon apprentissage !

En français, donc, on peut en général considérer que *sept* formes de référence suffisent, à savoir (sur un exemple) : "venir, je viens, nous venons, ils viennent, je viendrai, je vins, venu". Bon, c'est un peu une simplification. Pour une poignée de verbes les plus fréquents (en gros les auxiliaires et les verbes de modalité), il y a un huitième radical, qui est utilisé notamment pour les 1sg, 2sg, 3sg et 1pl du subjonctif présent : "que je puisse", à la place du "radical tonique" qui provient du 3pl de l'indicatif présent : "ils peuvent" (comparer : "ils viennent" -> "que je vienne"), et aussi pour quelques autres formes. Lesquelles précisément ? Malheureusement cela dépend du verbe ! ce qui limite donc un peu l'utilité du concept de formes de référence. Wikipedia https://en.wikipedia.org/wiki/French_conjugation suggère du coup un système avec 11 formes de référence ; je ne sais pas si c'est vraiment le meilleur point de vue, mais pourquoi pas. Par ailleurs, cinq verbes - être, avoir, aller, faire et dire - et certains (mais pas tous…) de leurs composés - ont des formes irrégulières *au présent de l'indicatif* (et uniquement là) qui échappent à ce système de formes de références (qu'on en prenne 7, 8 ou 11). Mais ça fait en gros juste 6 formes en plus à retenir pour ces 5 verbes.

Bon, pour être complètement honnête, il y a aussi quelques subtilités orthographiques qui brouillent un peu le tableau : les écritures avec "ge" et "ç" pour conserver les sons \ʒ\ et \s\ avant les voyelles postérieures, et quelques bizarreries de l'accent circonflexe ("il connaît", "dû"/"due", "vous haïtes").

***

J'en profite pour signaler que récemment, pour aider des amis russes qui devaient (rapidement) apprendre le français, j'ai fait quelques fiches pour justement systématiser tout ce que le Bescherelle ne systématise pas. Je me suis dit que ça pourrait t'intéresser. Je viens donc de les mettre en ligne : http://www.normalesup.org/~smilga/conjugaison_francais.pdf . Malheureusement, toute la méta-information est en russe ; j'espère que tu pourras quand même t'y retrouver (et bien sûr n'hésite pas à poser des questions si besoin !). Désolé pour la présentation visuelle qui pourrait sans doute être améliorée. Faire le tout proprement en LaTeX m'aurait pris une éternité, du coup j'ai fait avec les moyens du bord (seulement 4 couleurs de stylo + 1 crayon de bois et quelques surligneurs…). (Soit dit en passant, toi - et les lecteurs de ton blog - avez ici ce lien en exclusivité : je n'ai pas mis de lien depuis la racine de mon site, je n'assume pas suffisamment pour ça :'-D !)

***

Je trouve également ta question sur la complexité de Kolmogorov intéressante. Voici une variante pour l'enrichir : ce serait intéressant de calculer une sorte d'"entropie" qui tienne aussi compte de la *fréquence* des différents mots, voire de la fréquence de leurs formes. (En première approximation, la fréquence d'une forme infléchie est égale au produit de la fréquence du lexème de base et de celle de l'inflexion utilisée, mais si on regarde plus finement ce n'est évidemment plus le cas.) Bon, je ne sais pas à quel point c'est possible, mathématiquement, de définir une notion qui unifie la complexité de Kolmogorov avec l'entropie. Mais d'un point de vue pratique, si on se donne pour but d'enseigner la langue (à un humain), clairement, les fréquences des différents mots pourraient apporter un éclairage utile sur ce qu'on considère comme "règle" et ce qu'on considère comme "exception", ou alors (si le spectre de variation est tel que parler de "règle" n'a pas de sens) pour savoir quoi apprendre en premier. Par exemple, pour les verbes en -ire, est-il raisonnable de donner comme "règle" que le participe passé se forme en "-it" ? Même si on évite de se prononcer sur la question, ça peut influencer le choix du verbe "modèle" utilisé comme premier exemple pour présenter la conjugaison (prend-on "confire", ou "suffire" ?).

Je rêve de mettre la main sur un corpus français lemmatisé, raisonnablement conséquent et représentatif, pour obtenir des statistiques sur la fréquence des différents lexèmes. Malheureusement, c'est très difficile à trouver. J'avais trouvé quelque part un tableau de la fréquence des verbes en français, mais j'ai constaté des anomalies dedans, et en creusant je me suis rendu compte que le corpus utilisé était constitué de copies d'écoliers - pas très représentatif, donc…

***

J'en profite pour mentionner un excellent site que j'avais découvert il y a quelques années en cherchant à apprendre la conjugaison espagnole : decimos.net . Malheureusement le créateur a cessé de le maintenir après quelques années à peine, et il n'est plus en ligne. Quelques traces subsistent sur l'Internet Archive, mais la partie vraiment intéressante du site - le moteur de conjugaison - ne peut plus être interrogée, et je ne crois pas que le code source ait été publié : une énorme perte !! Ce qui rendait ce moteur absolument exceptionnel, donc, c'est qu'il était capable de non seulement donner n'importe quelle forme conjuguée, mais d'expliquer comment elle est construite. Par exemple, si on lui demandait de conjuguer le verbe "cocer" à l'indicatif présent 1sg, il nous disait (en des termes à peine plus abrégés que ça) : "normalement, pour former un indicatif présent 1sg, il faut prendre le radical* tonique, qui est dans ce cas 'cuec-', et rajouter la désinence '-o' ; sauf qu'en l'occurrence, pour ce verbe, le radical doit garder le son /θ/, ce qui, avant un 'o', exige un 'z' ; le résultat final est donc 'cuezo'". J'aimerais beaucoup voir apparaître quelque chose de similaire pour le français, et peut-être aussi pour d'autres langues…

*Soit dit en passant, quelle est la bonne traduction en français du terme "stem" ? "Racine" (="root") ne convient pas tout à fait : par example dans le mot "parviendra", le "stem", c'est "parviendr-", alors que la racine, c'est sans doute "-ven-" (qui n'y apparaît pas en clair)… J'ai utilisé partout ici le mot "radical", mais je ne suis pas sûr que ce soit mieux.

***

Je trouve très rigolotte sur le principe ta proposition de superposer le tréma et l'accent circonflexe dans "nous haïmes". Je dois en revanche mentionner que concrètement, le résultat qui s'affiche chez moi (Ubuntu 20.04.6/Firefox 123.0) est catastrophique. Au lieu d'être en-dessous ou au-dessus du tréma, le circonflexe tente de prendre la place du point de gauche : le "i" se retrouve à faire une sorte de clin d'œil louche…

***

Enfin, je confirme que l'instrumental de "сорок" est bien "сорока" (locuteur natif ici !).

Montaigne (2024-01-22T13:37:12Z)

@ Franco

1) Je ne suis pas le Montaigne de WR. Il y a dix-sept ans, j'étais dans mon berceau.

2) Certains – dont je suis – ne font pas de différence phonématique entre « je viendrai » et « je viendrais » ou prononcent « lait » en ouvert. Ça n'en reste pas moins des erreurs, au regard du français standard. Ensuite, libre à vous de préférer Vaugelas à Grevisse.

3) L'optatif futur n'est pas une forme tardive (au sens classique de ce mot). Au contraire, l'optatif futur disparaît, en gros, avec la koinè.

4) Les références pour Didyme et Damascios sont celles du TLG, où βαλοίμεθα est en effet un optatif aoriste.

5) Le point 2) de mon second message d'hier est en référence au « pour info, ça veut dire quelque chose comme ''que nous jetions [pour nous, dans le futur, en émettant un souhait]'' » de David. En grec (classique), l'optatif futur n'exprime jamais le souhait ; il est toujours oblique.

Franco (2024-01-21T20:39:46Z)

@Montaigne
Beaucoup de Français ne font pas la distinction entre "viendrais" et "viendrai".

En faisant des recherches rapides avec Google, je suis tombé sur cette discussion
<URL: https://forum.wordreference.com/threads/rai-rais-prononciation-du-futur-et-du-conditionnel.347602/ > , tenue il y a 17 ans (!) et à laquelle vous avez participé. La majorité des participants ne faisait pas cette distinction, pas plus que moi ou les gens que je fréquente ne la faisons. Pourtant, en plus d'être considérée comme correcte, elle est aussi utile mais c'est ainsi…

David a donc raison d'écrire qu' "un Français peut hésiter […]" et on ne peut pas écrire sans plus de précisions "Les deux formes n'ont pas la même prononciation".

Quant à βαλοίμεθα, cela peut aussi être un optatif aoriste de βάλλω. Comme vous ne donnez pas les références précises des passages où Didyme et Damascios emploient cette forme, ce qui est fâcheux, impossible de vérifier.
De toute façon, le fait que l'optatif futur est une forme tardive et est toujours employé comme optatif oblique n'a aucune importance ici.

Montaigne (2024-01-21T17:22:23Z)

Sur βαλοίμεθα :

1) La forme se trouve chez Didyme (IVe s.) et Damascios (Ve/VIe s.).

2) En grec classique, l'optatif futur n'a qu'une valeur grammaticale (« optatif oblique »).

Montaigne (2024-01-21T16:47:26Z)

« Un Français peut hésiter entre […] ''je viendrai'' et ''je viendrais'' ».

Les deux formes n'ont pas la même prononciation : fermé pour le futur, ouvert pour le conditionnel.

Typhon (2024-01-21T10:38:21Z)

Aucun linguiste sérieux ne considère que les différentes langues chinoises sont des dialectes du mandarin standard, d'ailleurs ils n'utilisent pas toujours les mêmes caractères (il y a des caractères qui sont spécifiques au cantonais par exemple).

Que le système d'écriture chinois soit plus facile à déconnecter de l'oral c'est un fait même si ça veut surtout dire qu'il est connecté à la prononciation du chinois classique parlé y a 2000 ans. Qu'il le soit complètement, ça paraît beaucoup plus difficile à défendre.

Sinon la raison pour laquelle je mentionnais ça c'était plus par rapport à des questions de complexité orthographiques, qui est aussi une question à déconnecter de la langue.

C'est pas un fait important de la langue anglaise qu'ils écrivent "fright" là où ils pourraient tout à fait écrire "frajt". Ce type de complexité orthographique n'est pas connecté à un phénomène linguistique comme l'accord, c'est juste une question de connecter les phonèmes aux graphèmes d'une façon plus ou moins simple.

Ruxor (2024-01-21T10:08:21Z)

@Typhon: Si ce que tu dis est que la forme précise des caractères n'est pas importante pour la linguistique de la langue écrite exactement comme les spécificités de la voix de la personne qui parle ne sont pas importantes pour la linguistique de la langue orale (p.ex., le français parlé avec une voix d'homme adulte et le français parlé avec une voix de femme adulte, ou d'enfant sont quand même la même langue, malgré des différences objectives), nous sommes bien d'accord, malgré le fait que la limite soit forcément un peu floue (quand est-ce que la différence de voix devient une différence d'accent, ou une différence de prononciation ? quand est-ce que la différence de police de caractères devient une différence de système d'écriture, ou une différence orthographique ? tout ça est forcément toujours un peu arbitraire). Et nous sommes aussi d'accord sur le fait que c'est assez évident. Mais dans ce cas je ne vois pas vraiment pourquoi tu l'as dit, et en quoi c'était pertinent dans la discussion. Quelqu'un a émis l'hypothèse d'une constante de la complexité des langues (hypothèse qui me convainc assez peu, pour les raisons qui ont été dites par d'autres, mais peu importe), et tu as affirmé que « les linguistes ne considèrent pas généra[l]ement l'écrit comme faisant partie des langues » : si on donne à cette phrase le sens évident que je viens de préciser, je ne vois pas en quoi c'est une réponse.

Le fait que le chinois ait pas mal de mots qui sont identiques à l'oral mais pas à l'écrit, que parfois les Chinois (qui savent lire et écrire à >95%) esquissent le geste d'un bout du dessin du caractère pour lever les ambiguïtés, que les différentes branches du chinois (je ne vais pas me mouiller dans la question de si ce sont des langues distinctes ou des dialectes d'une même langue) ont une plus grande possibilité d'intercompréhension à l'écrit qu'à l'oral (n.b. : je ne dis pas qu'elle est parfaite !), le fait que les caractères aient été « simplifiés » d'un côté du détroit de Taïwan mais pas de l'autre, le fait que des tentatives pour écrire le chinois en écriture latine (comme ça s'est fait in fine pour le vietnamien) n'aient jamais abouti, tous ces faits font partie des données qui font la complexité de la (ou des) langue(s) chinoise(s), notamment pour quiconque veut l'apprendre, et je ne vois à peu près aucune circonstance où on peut juste décider d'en faire abstraction. (Ce n'est pas pour dire que le mandarin oral standard n'est pas quelque chose qui n'existe pas, bien sûr, comme le mandarin écrit standard : et j'avais moi-même tenté d'apprendre un peu du premier sans rien apprendre du second ; mais je vois vraiment mal comment on pourrait faire abstraction de l'écriture du chinois — et de sa complexité — pour étudier la linguistique du chinois écrit : ça me semble d'une sophistication byzantine, là.)

Typhon (2024-01-21T08:24:32Z)

Tu réponds toi-même à ta propre question : la différence entre "je suis désolé" et "je suis désolée" ne relève pas de l'étude du français oral contemporain.

Ça ne veut pas dire que ce n'est pas une question qui relève de la linguistique,
c'est juste la linguistique d'une langue morte ou artificielle.

Sujet parfaitement légitime à étudier en linguistique et étudié par plein de linguistes, contrairement à ce que tu as l'air de dire.

Ce qui est proprement linguistique dans ton exemple c'est la question de l'accord en genre mais la question de pourquoi une femme est une femme (directement pertinente à comment elle va écrire pourtant) ne relève pas delà linguistique. Faut bien poser une limite quelque part.

En l'occurrence l'accord orthographique ça s'explique très bien par la linguistique et même le choix du e s'explique par l'histoire de la langue.

Je pense que tu rates le sens de ce que je dis parce que ce que je dis est vraiment très trivial, à savoir que c'est pas les lettres qui font la langue. Et contrairement à ce que tu dis, même une différence orthographique énorme n'a pas forcément d'importance linguistique. Le hindi-ourdou est un très bon exemple de ça : l'écriture ourdou ne note pas les voyelles. Ça n'empêche pas les locuteurs de se comprendre très bien à l'oral.

Et Le japonais écrit parfois des mots natifs en katakana, ça devient pas une langue différente à chaque fois. Comme tu dis c'est comme un changement de police.

La linguistique ne s'intéresse pas à la typographie.

Ruxor (2024-01-20T21:36:40Z)

@Typhon:

Je comprends pas la distinction que tu fais entre « le français écrit » et « l'écriture du français ». En français (contemporain) à l'oral, « je suis désolé » et « je suis désolée » sont prononcés de façon identique (on peut ergoter pour savoir si c'est la même phrase ou deux phrases indiscernables mais mentalement distinctes sur la base du fait qu'en demandant à un locuteur de remplacer l'expression de désolation par celle de surprise et voir s'il produit « je suis surpris » ou « je suis surprise », mais ce n'est pas mon propos). Est-ce que c'est une distinction qui relève de la linguistique ? Est-ce que la présence de ce ‘e’ si c'est une femme qui écrit et pas si c'est un homme est un phénomène linguistique ? Pour moi c'est évident que oui, et du coup que l'étude de questions orthographiques relève de la linguistique, comme, pour reprendre le propos de mon billet, les terminaisons grammaticales des conjugaisons françaises qui se voient uniquement à l'écrit.

Alors oui, si on a deux systèmes d'écriture qui sont en correspondance complètement régulière, je veux bien qu'on les identifie, de même qu'on peut identifier un texte écrit dans une police de caractères avec et sans empattement, ou, à l'oral, un texte prononcé par une voix d'homme ou de femme : ce sont des questions sans enjeu linguistique. Mais en général, le changement d'un système d'écriture à un autre n'est pas purement régulier et algorithmique : ça va être l'occasion d'une réforme orthographique, de pertes ou d'ajouts d'information, de choses comme ça. À mon sens, le russe écrit est une langue (un peu) différente avant et après 1917, parce que des mots comme « миръ » et « міръ » qui étaient distincts sont devenus identiques (comme ça faisait belle lurette qu'ils l'étaient en russe oral). Je ne dis pas que c'est devenu une autre langue, juste qu'elle a changé, comme une langue peut changer pour un million de raisons, et que c'est un phénomène linguistique (peu importe que le changement vienne par décret ou par consensus).

Après, évidemment, c'est des questions de définitions. On peut décréter que la linguistique ne s'intéresse pas à l'orthographe et que l'étude de tout ce qui se détecte uniquement à l'écrit relève d'une autre science (la « scribistique », par exemple). On peut toujours faire les distinctions qu'on veut (et de toute façon les chercheurs peuvent étudier ce qu'ils veulent étudier). Mais je ne vois pas l'intérêt de cette distinction : pour moi, la linguistique c'est l'étude des moyens de communication entre humains qui permettent d'exprimer précisément des idées quelconques, donc ça n'a aucune importance que le moyen en question passe par des ondes sonores ou des glyphes ou une gestuelle ou encore autre chose (et ça n'a pas non plus d'importance si le moyen est apparu par la décision d'une personne ou le consensus d'un groupe, ni s'il a été appris quand on était tout petit ou à l'âge adulte).

J'ai vraiment l'impression qu'il y a un snobisme naturaliste chez certains linguistes, qui est opposé mais finalement analogue au snobisme de la langue « correcte » chez les prescriptivistes : l'idée que les choses « artificielles » ne sont pas intéressantes à étudier, alors que la notion d'artificialité est elle-même… complètement artificielle (en tout cas l'idée selon laquelle la langue orale est naturelle et la langue écrite est artificielle). Je soupçonne vaguement que c'est une sorte de réaction à une tradition historique de considérer que l'écrit a plus d'importance que l'oral (ou est la forme la plus pure ou la plus correcte de la langue). Mais du coup on tombe sur une sorte de fantasme d'état de nature à la Rousseau : la langue qui évolue naturellement entre des locuteurs natifs, la langue non teintée par la connaissance de l'écrit ou l'envie de la consigner sous forme de signes, la langue qui n'évolue jamais par décret mais uniquement par un processus « naturel » de consensus, quelque chose comme ça. Mais en fait c'est tout autant un fantasme que l'idée d'une langue « correcte ». Bon, peut-être que je surinterprète, mais il y a des réactions qui ont très bien l'air de s'interpréter selon cette grille.

Typhon (2024-01-20T17:49:06Z)

Quand je dis que l'écrit ne fait pas partie des langues, je parle bien du système d'écriture. Le "français écrit" est une langue (ou une variété du français en tout cas), bien évidemment.

Ce qui n'est pas une langue et ne fait pas partie du domaine de la langue, ce sont les signes qui servent à la noter graphiquement, c'est ça que je désigne comme système auxiliaire, et c'est pour ça que je mentionne les cas de digraphie comme le BCSM : c'est pas parce qu'on écrit "Išli smo u Afriku" que c'est une langue différente de quand on écrit "Ишли смо у Африку", et ce en dépit des vagissements des nationalistes.

Il faut bien distinguer l'écrit comme medium d'expression, qui est ce que je qualifie de système auxiliaire, et la variété de langue que les gens utilisent quand ils écrivent (qui n'est pas du tout négligée par les linguistes et même généralement la plus volontiers étudiée, pour des raisons pratiques).

A. Martinet (2024-01-19T20:57:49Z)

« Ceci ne doit pas faire oublier que les signes du langage humain sont en priorité vocaux, que, pendant des centaines de milliers d'années, ces signes ont été exclusivement vocaux, et qu'aujourd'hui encore les êtres humains en majorité savent parler sans savoir lire. On apprend à parler avant d'apprendre à lire : la lecture vient doubler la parole, jamais l'inverse. L'étude de l'écriture représente une discipline distincte de la linguistique, encore que, pratiquement, une de ses annexes. Le linguiste fait donc par principe abstraction des faits de graphie. Il ne les considère que dans la mesure, au total restreinte, où les faits de graphie influencent la forme des signes vocaux. »
(A. Martinet, Éléments de linguistique générale, 1970)

Je pense que c'est à ce genre de position que Typhon faisait allusion. Ce point de vue est loin d'être "complètement idiot" mais ne fait pas consensus chez les linguistes (lire les pages 39 et suivantes de <URL: https://hal.science/hal-03698562/document > ).

Ruxor (2024-01-19T09:36:50Z)

Je trouve assez fascinante cette idée que l'écrit ne fait pas partie des langues (mais je doute assez fortement que ce soit une opinion si majoritaire que ça chez les linguistes) : ça a l'air d'être un pendant naturaliste de l'idée des prescriptivistes selon lequel le français parlé dans les banlieues n'est pas une langue — idée diamétralement opposée, mais finalement équivalente, une tentative de borner le phénomène de langue a ce qu'on a envie de considérer comme une langue. Un peu comme si des ornithologues décidaient que les pigeons des villes ne sont pas vraiment des oiseaux parce qu'ils ont été sélectionnés puis relâchés par l'homme (ou en tout cas qu'il ne faut pas les étudier, ou leur donner une espèce, ou quelque chose comme ça) ; cf. ce que j'écrivais récemment sur les conlangs, <URL: http://www.madore.org/~david/weblog/d.2023-05-18.2751.conlangs.html#d.2023-05-18.2751 >.

(D'ailleurs je pense que cette analogie entre le français écrit et les animaux féraux qui ont été sélectionnés puis sont revenus à l'état sauvage, est très bonne.)

Qu'on considère que le X écrit est une langue/dialecte distincte du X oral (voire, plusieurs langues/dialectes distincts, au moins un par système d'écriture, qui s'interinfluencent), aucun problème, mais « pas partie des langues », sérieusement ‽

Je comprends par ailleurs que l'écrit ne soit pas quelque chose de très intéressant à étudier dans un monde où seule une minorité de lettrés savent écrire (comme, pour un biologiste, étudier les pigeons de collection), mais dans les pays (et dans un monde) où le taux d'alphabétisation dépasse les 85%, et à une époque où de plus en plus de notre communication quotidienne se fait par ce moyen, c'est vraiment fascinant. Surtout dans des langues où, et dans la mesure où, on commence à apprendre l'écrit avant d'avoir fini le gros de l'apprentissage de l'oral. Je ne sais pas pour les autres, mais en français, quand je fais une liaison à l'oral, ma démarche est de me demander mentalement comment ça s'écrit, ce n'est pas le contraire (ce n'est pas pour écrire que je me demande comment je ferais la liaison) ; et pourtant, j'ai une mémoire essentiellement « auditive ».

Quant à l'argument que la majorité des langues du monde ne sont pas écrites du tout (je suppose que ça veut vraiment dire : aucun système d'écriture en usage courant), ben c'est du niveau de dire que comme la majorité des langues du monde n'a pas de clics du tout on ne va pas considérer les clics comme faisant partie des phonèmes. 🤷

(Après, évidemment, les chercheurs étudient ce qu'ils veulent, et s'ils veulent ignorer l'écrit ou les langues à clics ou les langues non indo-européennes, grand bien leur fasse. Mais dans la définition, prétendre que ce n'est pas une langue, c'est juste… complètement idiot.)

Typhon (2024-01-18T16:11:58Z)

*note de bas de page du commentaire précédent : je dis "langue orale" par opposition aux langues signées ou gestuelles, qui ont d'ailleurs cette particularité intéressante d'être visuelles, tout comme l'écriture, mais d'être très peu écrites elles-mêmes.

Typhon (2024-01-18T11:30:30Z)

@Nick Mandatory et M_A_N_U :

Les linguistes ne considèrent pas généraement l'écrit comme faisant partie des langues.

L'écriture est un système auxiliaire qui doit faire l'objet d'un apprentissage dirigé pour être acquis et qui est toujours plus ou moins subordonné à la pratique directe de la langue (i.e. à l'oral pour les langues orales*).

Quel que soit le point de vue sur la façon de mesurer la complexité d'une langue, son système d'écriture est un problème à part qui ne peut pas être compté dans un sens ou dans l'autre. On s'en convainc facilement en constatant qu'il y a plein de langues qui ont changé de systèmes d'écriture au cours du temps voire sont écrites dans deux systèmes différents de façon concurrente (Hindi-Ourdou, BCSM, etc), et d'autre part que la majorité des langues du monde ne sont pas écrites du tout (NB : ça ne veut pas dire que l'écrit n'a pas d'impact sur les langues).

Pour ce qui est de la complexité elle-même, il faut déjà qualifier ce qu'on entend par là et comment on compte la mesurer. Il y a une différence évidente entre complexité d'acquisition comme langue première, complexité d'utilisation au quotidien, et complexité d'acquisition comme langue seconde.

Quand un linguiste fait l'hypothèse plus ou moins explicitement que les langues sont équivalentes en terme de complexité, c'est en référence notamment à la première forme de complexité et à la deuxième : toutes les langues naturelles sont susceptibles d'être apprises comme langues maternelles et on n'a jamais pu mettre en évidence de façon sérieuse une déficience d'expressivité de la part de locuteurs natifs d'une langue par rapport à une autre (quand je dis expressivité, je me réfère au sens sous-jacent, pas à la structuration des énoncés).

Pour autant il y a des traits qu'on peut considérer comme "objectivement complexes" parce que typologiquement rares (certaines consonnes comme les clics sont relativement rares par exemple), et qui vont poser des difficultés prévisibles aux apprenants de langue seconde.

Un élément qui rajoute de la difficulté à la discussion c'est que toute langue est une cible mouvante.

Loin d'être des ensembles clos, les langues sont des systèmes dynamiques. Les profanes ont souvent tendance à la vision de langues comme listes limitatives (de mots, de morphèmes, de constructions), mais quand on parle de grammaire d'une langue, on parle typiquement aussi de systèmes pour générer non seulement de nouveaux énoncés mais aussi de nouveaux éléments lexicaux (et c'est pour ça qu'en dernière analyse il n'y a pas de langue à qui "il manque un mot", non seulement parce que le sens sous-jacent est toujours exprimable d'une autre façon mais parce qu'il y a souvent une façon de créer le mot en question, ou de l'emprunter).

Nick Mandatory (2024-01-18T00:13:33Z)

@M_a_n_u : Une remarque qui tue cette croyance presque mystique en une constance de la complexité des langues c'est que si demain le gouvernement chinois décidait que le chinois se notait en pinyin (ou, à une moindre échelle, que l'Iran décidait de noter le persan dans un alphabet adapté, ou que la Francophonie réformait en profondeur l'orthographe du français), on obtiendrait une deuxième langue chinois₂/persan₂/français₂ qui serait indubitablement plus simple à apprendre que la langue d'origine.

Donc croire à la constance de la complexité des langues, c'est croire à une espèce de « conjecture de censure linguistique » qui fait qu'un groupe de personnes ne peut pas prendre ce genre de décision. Et un certain nombre d'exemples historiques font que l'on ne peut pas prendre très au sérieux cette croyance.

Paul (2024-01-17T13:21:53Z)

Ce beau billet m'inspire un certain nombre de remarques éparses que je vais regrouper par langue. J'ai des considérations plus nombreuses sur la conjugaison française, c'était l'objet de mon mémoire de linguistique appliquée à la didactique du français langue étrangère (FLE) ! En bref, je te renvoie aux travaux de Bonami et Boyé, notamment "Supplétion et classes flexionnelles" (2003), et à l'article fondateur de Swiggers et Van den Eynde "La morphologie du verbe français" (1987). Tu y trouveras précisément ce que tu veux, des classifications par ce que tu appelles "formes de référence" (tu trouveras sans doute davantage de littérature sur cette notion si tu cherches "temps primitifs", "parties principales" ou, en anglais, "principal parts").

Latin :
* Citer les verbes par la première personne du singulier est bien sûr une convention, et elle n'est pas universelle, même en France. Très curieusement, dans l'exercice de commentaire de texte au concours de l'ENS Ulm (que l'on imaginerait gardienne de la tradition), le jury demande (en tout cas, demandait il y a dix ans) que l'on cite les verbes à l'infinitif.
* Ton texte laisse penser que tu en as conscience, mais je le dis explicitement : la deuxième personne du singulier est inutile dans les temps primitifs en latin, et ne reste que par tradition.
* Il me semble avoir lu quelque part que le futur passif de 2e personne pluriel était essentiellement non attesté pour l'ensemble des verbes dans le corpus de la littérature latine (en dehors peut-être de grammaires). C'est donc un cas assez original où toute la case du paradigme relève d'une hypothèse de régularité, fondée, d'une part, sur les autres formes de futur (pour l'affixe -bi- / -e-) et, d'autre part, sur les autres formes de 2e personne pluriel passif (pour la terminaison -mini). Je n'ai pas de référence sous la main, donc à prendre cum grano salis.
* Tu cites l'ablatif singulier de la 3e déclinaison, mais dans mon expérience, la formation du génitif pluriel (-um ou -ium ?) est encore plus compliquée à systématiser… Si je ne dis pas de bêtise, tous les mots qui ont un ablatif singulier en -i ont un génitif pluriel en -ium, mais la réciproque n'est pas vraie ("civis").

Allemand :
* Coquille : le suffixe -s au génitif concerne les masculins et les neutres, pas les féminins.
* Dans les désinences des noms eux-mêmes, on peut évoquer le reliquat du -e au datif singulier, toujours utilisé pour quelques expressions figées (zu Hause, im Zuge…).
* En ce qui concerne la prédictibilité de la conjugaison, les formes de présent, prétérit et participe passé que tu cites ne suffisent pas toujours à prédire le Konjunktiv II, qui présente une forme seconde pour certains verbes (stärbe/stürbe, hälfe/hülfe, etc.). Ces formes (rares et littéraires, soit) sont d'ailleurs incluses dans certaines listes de verbes irréguliers.
* Tu écris qu'il n'y a que "deux-trois verbes très courants" qui soient irréguliers même en fournissant présent, prétérit et participe passé, mais je dirais plutôt une dizaine : sein, haben, werden et tous les modaux.

Russe : juste une coquille dans la note 3 : "le singulier et le futur d'un nom", tu voulais probablement dire "le singulier et le pluriel".

Dans plusieurs langues que tu cites, le paradigme des adjectifs présente une dimension supplémentaire : le comparatif et le superlatif des adjectifs. Ce n'est pas trivial en anglais de savoir s'il faut utiliser la forme synthétique (avec le suffixe "-er" / "-est") ou composée (avec "more"/"most"). Le grec ancien a des règles assez compliquées (et naturellement truffées d'exceptions, c'est du grec ancien) sur l'allongement ou non de l'omicron en oméga…

D'ailleurs, le paradigme des adjectifs en letton (et probablement dans d'autres langues) présente une dimension supplémentaire, à savoir la distinction défini/indéfini (sachant qu'il n'y a pas d'article en letton) : "je vois un chien blanc" et "je vois le chien blanc (dont j'ai déjà parlé)" déclinent l'adjectif différemment ("es redzu baltu suni" / "es redzu balto suni"). Les deux paradigmes se ressemblent beaucoup et la déclinaison définie dérive très certainement de l'indéfinie, mais en synchronie, ils sont distincts et il vaut sans doute mieux les apprendre séparément.

Tu cites "in-" sur la différence flexion/dérivation, mais c'est un exemple fort délicat que la négation lexicale. En vrac :
* Il y a des préfixes concurrents (a-, dé-) et il n'est pas clair que l'un soit plus légitime que les autres à être le préfixe négatif régulier de base.
* J'ai l'impression qu'aucun de ces préfixes n'est spontanément bien accueilli sur de nouveaux adjectifs ("j'ai réussi à rester incovidé/acovidé/décovidé (?) pendant toute la pandémie").
* Sur le lexique de base, la plupart des concepts opposés ont deux racines bien distinctes (grand/petit, chaud/froid…), donc c'est dur de trouver des régularités. Et quand bien même : quel serait, pour chaque paire, le mot de base sur lequel former son antonyme ?
* Même la simplicité légendaire (pour plusieurs sens de cet adjectif) de l'esperanto se prend les pieds dans le tapis avec la négation lexicale : il y a plusieurs préfixes concurrents (voir https://esperanto.stackexchange.com/questions/2523/when-is-the-prefix-ne-and-when-is-it-mal) et on ne peut guère deviner que "chaud" se dit "varma" et froid, "malvarma", et que ce n'est pas l'inverse (un mot pour froid, sur lequel on fabriquerait "chaud").

Enfin, sur les verbes en français :
* Pour les trois groupes traditionnels de verbes, les deux premiers me paraissent importants car ils sont encore ouverts (enfin, surtout le premier) dans le sens que quasiment tous les néologismes sont en -er ou rarement en -ir (on donne parfois l'exemple de nouveaux verbes de couleur : on pourrait envisager "prunir", "orangir" ou "turquoisir" sur le modèle de rougir, jaunir, verdir, etc.). Si tu demandes à un large panel de conjuguer "plover" ou "plovir", tu vas avoir des réponses massives parallèles à "chanter" ou "finir" ; si tu lui demandes de conjuguer "ploudre", tu vas avoir beaucoup plus de dispersion. Cela n'a d'ailleurs pas de rapport nécessaire et direct avec la "simplicité" (quoi que l'on désigne par là) du modèle : Olivier Bonami aime beaucoup rappeler que le verbe le plus "simple" de la langue française est "conclure", car il utilise "conclu-" à TOUTES les formes de sa conjugaison. Pourtant, c'est assez clairement un verbe irrégulier, vu qu'il n'y a qu'"exclure" qui se conjugue comme lui ("inclure" fait "inclus, incluse" au participe passé)
* Sur le 3e groupe, la plus grande catégorie est celle des verbes en -dre qui se conjuguent comme "vendre" (ça doit être un bon quart du 3e groupe). Dans l'enseignement du FLE, on dit parfois que c'est le troisième modèle régulier de conjugaison en français.
* L'irrégularité de "jeter" (comme de la plupart des verbes un peu inhabituels du 1er groupe) tient essentiellement à des raisons d'ordre phonotactique (= domaine qui répond à la question "quels sons d'une langue donnée sont autorisés à quels endroits du mot ou de la phrase ?") : ici, le premier e caduc (= schwa) ne tient pas dans le schéma "schwa-consonne-schwa", donc soit il prend un accent (c'est l'évolution qui est advenue pour la majorité des mots sur le schéma "schwa-consonne-ER"), soit il devient un vrai "eu" fort, ce qui est rare mais peut arriver. Cette dernière catégorie n'est d'ailleurs pas dans le Bescherelle, vu qu'elle concerne la langue orale contemporaine : il y a au moins un verbe courant que certains locuteurs prononcent avec un schwa à certaines formes où la phonotactique le permet, mais qui est toujours un vrai "eu" fort quand c'est nécessaire dans la conjugaison : c'est "déjeuner" (il est assez courant d'entendre "on va déj'ner ?" ou "vous avez déjà déj'né ?"). On peut aussi penser à d'autres verbes, pas hyper courants certes, qui ne prononcent rien du tout quand le schwa n'est pas possible (voire même quand le schwa est possible) : becqueter/becter ou jacqueter/jacter ("ils bectent", "ils jactent" me paraissent plus naturels que "ils becquètent" et "ils jacquètent"). On voit d'ailleurs une forme de régularisation à l'écrit dans "becter" et "jacter" : on a viré le e. On peut aussi citer "pelleter", verbe apparemment courant au Canada sur lequel on trouve des articles de la presse généraliste via votre moteur de recherche préféré.

M_a_n_u (2024-01-17T07:52:33Z)

Je me demande s'il est possible de mesurer la complexité « globale » d'une langue. Si tel est le cas, je postule que c'est un invariant. C'est-à-dire que toutes les langues sont complexes, mais pas toutes au même niveau.
C'est le japonais qui m'a mis la puce l'oreille : pas de conjugaison, pas de genre, pas de pluriel. Ça devrait en faire ure langue très simple ! Mais non : 3 systèmes d'écriture dont ur idéographique, une multitude de registres de langage, des adjectifs changeant selon la forme de l'objet, bref, c'est compliqué.

Maintenant place à l'anglais : je n'ai jamais compris comment on poivait prétendre que c'est une langue « simple ». Il suffit de prendre le cas de deux mots de deux lettres seulement : do et go. Deux mots de deux lettres avec une lettre en commun, ça devrait être facile. Or l'un se prononce DOU, l'autre GO. Continuons avec le participe passé de ces deux verbes : done et gone. Étant donné ce qui précède, on pourrait s'attendre à ce que ça se prononce respectivement DOUNE et GONE. Perdu ! C'est DONE et GONE.
J'ai mis beaucoup de temps à comprendre que l'anglais est une sorte de langue romane idéographique : il est impossible de savoir comment se prononce un mot en le lisant, de même qu'il est impossible d'écrire un mot entendu. Il faut tout savoir par cœur.

D'où cette idée d'invariant de complexité : chaque langue évolue, se raffine jusqu'à la limite qu'est notre capacité d'intégrer toutes les possibilités. Ce qui explique que lorsqu'un « compartiment » d'une langue est « sinple », ur autre est « compliqué » (par rapport à une autre langue).

Typhon (2024-01-16T13:15:44Z)

Histoire des groupes de conjugaison dans les grammaires latines

<URL: https://www.persee.fr/doc/hedu_0221-6280_1997_num_74_1_2910 >

<URL: https://www.persee.fr/doc/hel_0750-8069_1991_num_13_2_2334 >

Matoo (2024-01-16T11:09:42Z)

Ah tiens moi je dis aussi "mille-un" et pas "mille et un". :DD

jonas (2024-01-16T10:56:49Z)

> ou est-ce que des articles de recherche en linguistique ont été utilisés comme base pour le code ?

As far as I understand, the original reason why programmers described all the conjugations and declinations to a computer was for spell-checkers. But to describe precisely which words are valid, especially in a way that other programmers can verify and maintain, you practically have to describe conjugations and declinations to all forms. I'm pretty sure that's how it happened for the larger ruleset for Hungarian, but I'm guessing that the same applied to French as well. Obviously the programmers relied on earlier research for pre-computer dictionaries and teaching resources, like the Bescherelle that you mention.

The other motivation for programming these rules is to get a stemmer, that is, an algorithm that can find (an arbitrarily chosen) base form of each word that is the same no matter which conjugation or declination you start from. This lets you search for all occurrences of a word in a (preprocessed) large corpus of text, or look up the entry for any word in a digital dictionary. But, at least for languages like French or Hungarian, this is an easier task than the full conjugation and declination rules.

Also, though your choice of names was probably deliberate, I'll note that the English names are “Wikipedia” and “Wiktionary”, while the French names are “Wikipédia” and “Wiktionnaire”.

Ruxor (2024-01-16T10:54:34Z)

@Christophe Boilley: Non, c'est bien « сорока » comme l'indiquent <URL: http://en.wiktionary.org/wiki/%D1%81%D0%BE%D1%80%D0%BE%D0%BA > et <URL: http://ru.wiktionary.org/wiki/%D1%81%D0%BE%D1%80%D0%BE%D0%BA >, et oui, c'est très irrégulier (tous les exemples que j'ai donnés ont une sorte de piège ou d'irrégularité).

Christophe Boilley (2024-01-16T07:45:10Z)

Il me semble que c’est le génitif de сорок qui s’écrit сорока. L’instrumental devrait s’écrire сороком.

Typhon (2024-01-16T06:29:10Z)

Ta vision de la complexité objective des langues mérite d'être discutée (disputée ?) abondamment, je me bornerai à te faire remarquer que c'est un raisonnement qui prend vite du plomb dans l'aile si on abandonne l'idée que pour parler une langue, il faut connaître toutes les cases du paradigme flexionnel et pouvoir retrouver la forme correspondante.

Je gage que c'est pas forcément le cas.

La raison pour laquelle on fait pas la différence entre ce qui relève de la convention descriptive et ce qui relève de la réalité dans l'enseignement du français à l'école tient au manque de familiarité des instituteurs/ices avec ces notions. Ils ne font pas eux-mêmes la différence et de toute façon elle n'est pas très importante parce que le français écrit enseigné à l'école n'est pas vraiment la même langue que le français oral de la vraie vie (l'exemple du passé simple qui n'existe juste plus en français courant, n'est que le plus évident et aussi pertinent pour ce que je disais juste avant).

L'histoire de la grammaire c'est l'histoire du poids stupide de la tradition, qui pèse même jusque sur les linguistes. Les grammairiens du latin distinguaient trois groupes de conjugaison, le latin était mort depuis longtemps quand on s'est rendu finalement compte qu'il était intelligent d'en distinguer jusqu'à cinq (cf les articles de Bernard Colombat).