David Madore's WebLog: Languages & Linguistics

This WebLog is bilingual, some entries are in English and others are in French. A few of them have a version in either language. Other than that, the French entries are not translations of the English ones or vice versa. Of course, if you understand only English, the English entries ought to be quite understandable without reading the French ones.

Ce WebLog est bilingue, certaines entrées sont en anglais et d'autres sont en français. Quelques-unes ont une version dans chaque langue. À part ça, les entrées en français ne sont pas des traductions de celles en anglais ou vice versa. Bien sûr, si vous ne comprenez que le français, les entrées en français devraient être assez compréhensibles sans lire celles en anglais.

Note that the first entry comes last! / Notez que la première entrée vient en dernier !

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entries with category lang / Entrées de la catégorie lang:


Why English sucks as the language for international and scientific communication

For a change, I'll be writing this entry in English—ironically because my point is to argue how English is a terrible choice as a language for international communication, and particularly in scientific and technical fields. (I initially intended to also publish a translation into French, and/or perhaps Interlingua, but on second thought my laziness has persuaded me to pass.) I should start with a few clarifications.

One is that I honestly don't think I am prejudiced against English. While English is technically not my first language, since I only learned it at age 8, or my mother tongue, it is literally my father tongue, the language in which I communicated with my father through most of my childhood and adolescence (now that my father is rather deaf and has difficulty articulating, we tend to speak French instead, for the phonetic reasons that I am about to point out below). English is not just a language which I read and write with pleasure, speak and understand in spoken form, it is also one in which I often phrase my own internal thoughts, especially when doing math, and in which I dream: so it is definitely not alien to me.

Verily, I am in love with it. English is a beautifully poetic language, capable of summoning vibrant images, crafting rousing speeches, conveying powerful emotions. And the wonder of it is that it empowers even the less talented. When English is wielded by the greatest of the great, by the hallowed likes of Shakespeare or Nabokov, when reinvented by Whitman and Joyce, it comes as no surprise that it can inspire awe: it doesn't take a diamond to shine in the hands of a star. But English is so manifold in its modes of expression, so opulent in possibilities, so richly laden with quaint words and nearly frivolous idioms, so mirthfully malleable, that even a lesser pen can reveal itself in its gleam. If some languages seem arid, English is their polar opposite: English is bountiful and ornate, English is a cornucopia of synonyms, a mine for metaphors, a fountain for apothegms, a luscious garden for the poet; each idea can be expressed through a whole gamut of terms, and from each word sprouts a rainbow of meaning. Quite bewildering—and quite the reason why English is a poor choice when it comes to precise communication on mundane matters, when poetry is not of the essence.

I am not trying to argue that we should now give up English for international or scientific communication, or try to replace it with this or that other language (except possibly in a limited way, e.g., see below on Basic English). I am not proposing to use Interlingua, Esperanto, Latin, Italian, Chinese, Russian, or anything else: I am maybe saying that we should have used Interlingua, Esperanto, Latin, Italian, Chinese, Russian, or something of the sort (probably any of the above would have been better than English) in the first place. That we (as a “global” civilization) have been stupid, bewitched or misguided. That we should realize this, even if it is now too late to correct our mistake, and perhaps reflect on the reason why we made it. (But I will not do this—at least not here and now.) Even if we can't fix things, even if we can't prevent similar bad choices from being made in the future, we should at least be aware of them, to contemplate our idiocy and keep in mind that collective decisions are not necessarily the wisest ones. (Memento, homo, quia stultus es, et in stultitia remanebis.) So, again, I am not suggesting a switch away from English; I will, on the other hand, make a few modest proposals (one for each major flaw that I find with English) that could alleviate the problem—I am well aware that even these less radical proposals have infinitesimal chances of begetting anything concrete, but their chances are perhaps less infinitesimal than if I were to suggest using Interlingua instead of English.

There is also, of course, the issue of how unfair the dominance of English is to all the peoples of the Earth of whom it is not the first language. How not being raised from the start in the global lingua franca makes them second-class citizens, or even third-class ones if they cannot communicate in it at all. How, contrariwise, native English speakers can find an opportunity of employment pretty much anywhere in the world by teaching English. How, even among non native speakers, a good knowledge of the global language constitutes a cultural capital that impedes social mobility for those who lack it. This is something that would be equally true had any language other than English been chosen as “Globish” (perhaps choosing a constructed language would avoid some of the aforementioned problems, but at the cost of others), so it is orthogonal to the specific problems with English that I wish to discuss here; this unfairness is also something that probably cannot be remedied, but that we should still keep in mind. (And, more importantly, it is a fact which we should not deny or ascribe to an irrational rejection of English.) I plan to discuss this aspect of things some other time (viz., probably never).

So, on to English specifically (and linguistically). What, exactly, is wrong with it? I see essentially three things: its vocabulary is too abundant, its syntax is highly ambiguous, and its pronunciation is unclear.

Its vocabulary is too abundant. This comes, in great part, from English being a Frankenstein-monster kind of hybrid between a(n Anglo-Saxon) Germanic substratum and good measure of (Norman) French. As a matter of fact, English is almost a superset of French, because we can look up practically any French word in the OED and find some recorded use of it in English. Now maybe the OED is an unfair (as in: absurdly large) metric of English's lexicon, since it includes inscrutable (to modern English speakers) Anglo-Saxon words or other historical oddities, hapaxes (or words for which they failed to find a single recorded instance and which somehow still ended up in the book, like palumbine—an adjective which means to a pigeon what canine is to a dog), highly specialized terms and other things nobody ever says or writes. Nonetheless, it is true that English often has a redundancy in its vocabulary due to its double Saxon and Norman origins: Wikipedia has a page about this, of course—actually, quite appropriately, it has two—and the fact is also famously noted by Sir Walter Scott in the beginning of Ivanhoe:

The swine turned Normans to my comfort! quoth Gurth; expound that to me, Wamba, for my brain is too dull, and my mind too vexed, to read riddles.

Why, how call you those grunting brutes running about on their four legs? demanded Wamba.

Swine, fool, swine, said the herd, every fool knows that.

And swine is good Saxon, said the Jester; but how call you the sow when she is flayed, and drawn, and quartered, and hung up by the heels, like a traitor?

Pork, answered the swine-herd.

I am very glad every fool knows that too, said Wamba, and pork, I think, is good Norman-French; and so when the brute lives, and is in the charge of a Saxon slave, she goes by her Saxon name; but becomes a Norman, and is called pork, when she is carried to the Castle-hall to feast among the nobles; what dost thou think of this, friend Gurth, ha?

It is but too true doctrine, friend Wamba, however it got into thy fool's pate.

Nay, I can tell you more, said Wamba, in the same tone; there is old Alderman Ox continues to hold his Saxon epithet, while he is under the charge of serfs and bondsmen such as thou, but becomes Beef, a fiery French gallant, when he arrives before the worshipful jaws that are destined to consume him. Mynheer Calf, too, becomes Monsieur de Veau in the like manner; he is Saxon when he requires tendance, and takes a Norman name when he becomes matter of enjoyment.

Even beyond the specific explanation of Saxon versus Norman sources, English seems to have a plethora (profusion, abundance, affluence, bounty, myriad, opulence, wealth, surplus…) of synonyms for anything. I don't have a precise measurement for this: but my very unscientific experience that, in writing literature in French, when I look for a synonym, the quest is generally much less fruitful than in English. In French I often have a hard time finding a word that I like: in English I have a hard time choosing a word that I like. And French itself probably has an uselessly large lexicon anyway.

Unlike the—uh—sensible, i.e., lexically agglutinative languages like German, Hungarian, Turkish, Finnish, Japanese or the like, English doesn't allow you to construct your own words (only your own syntagms by juxtaposing words in its quirky ambiguous syntax, see below). You just have to know (i.e., learn) which ones exist. Few suffixes are productive; even those that are suffer from odd exceptions (for example, -ly normally makes an adverb out of an adjective, e.g., happyhappily, but costly is inexplicably an adjective, and there is no way to make it into an adverb: there is no such English word as costlily; why? because fuck you). English vocabulary is a hodgepodge of words randomly imported from various other languages or constructed by arbitrary means and which cannot be analyzed systematically. For example: hodgepodge (neither hodge nor podge exist in English—well, the second exists because English has everything, but doesn't seem related—so you can't explain it, you just have to memorize the freak). Or why does English need to have the absurdly specific and un-analyzable word serendipity (which German might render with the perfectly analyzable Zufallsfund)? or adamant? cantankerous? rigmarole? niggardly? (I chose these examples because these words look like they can be broken down into pieces, but in fact they can't. And they're fairly common: I'm not going to go into cachinnation or—Athena forbid!—the utterly absurd eleemosynary. The only possible answer to the word eleemosynary is go home, English, you're drunk!.) I realize that every language has this sort of things, but English makes it into a perverse art. English is a wanton word hoarder with a fetish for the heirlooms of Papa German and Mama French (or is it the other way around?).

This is very good for poets, surely, and more generally authors of literature. I made this point earlier. But for scientific, technical, or legal communication? not so good. In what way is having a rich vocabulary bad? Let me take an example. A French speaker often can (and sometimes will) write in English by assuming that every slightly complex word they know from French also exists in English: sometimes this fails, either because the words don't exist or because they have a subtly—or grossly—different meaning (the so-called faux amis—this is no more English's fault than it is French's, and not my point here, but it is aggravating). But when it does works, the resulting English will often be replete with rare or unusual words and therefore difficult to read for people not acquainted with French or, at least, some other Romance language. (A bit like saying all articles that coruscate with resplendence are not truly auriferous instead of all that glitters is not gold—not truly an example of what I mean, but the same sort of idea.) My point is this: we can't reject this kind of “Gallicate” English, because it is “correct” English, but asking non French speakers to understand it amounts, in effect, to demanding that they understand French (or at least, French vocabulary). So English fails in much the same way that it would be a failure to decide for a language of international communication to be any random mixture of French and German, at the speaker's whim—surely this would be nice for French and German speakers who wish to be understood, but other people would, in effect, have to learn both French and German to make sense of it. The fact that native English speakers can generally read Interlingua without having learnt it, despite the fact that Interlingua takes its roots from the Romance languages, is a sign that English includes, so to speak, a practically full-fledged Romance vocabulary in its entrails (oh, here's a nice example of Gallicate English: entrails). The situation is somewhat parallel to what we get if we speak, in about any European language, with an excessive use of words made up from Greek roots: hyperhellenic paralexia, if you will; except that English will happily take these words as its own.

Can English's hyperglossia be tempered? Here is at least one modest proposal for a change in the language of international communication: replacing it with a controlled subset. Editors of scientific journals, for instance, might decide to restrict the word set of published papers to something like Ogden's Basic English (plus whatever technical words are required for the field under consideration, e.g., mathematical terms): this can be done in an automated way (or at least, deviations from the restricted vocabulary can be detected automatically). This would demand (very slightly) more effort on the authors' part, especially from native English speakers who might otherwise be tempted to use more sophisticated terms than strictly necessary, but correspondingly lighten the reader's burden: if we truly believe in the stated objective of having English (or some other unique language) as a single permissible vehicle for scientific publication, namely to minimize scientists' effort in learning languages, then surely Basic English is the logical continuation of this effort. (I'm not sure I personally agree with the premise, nor with the conclusion. However, hardliners who insist that it is absurd and senseless to publish scientific papers in anything other than English, and who don't pursue the reasoning all the way to some kind of Basic English, are being inconsistent.) Something of the sort has been standardized in the aerospace industry as Simplified Technical English; other similar subsets of English are Nerrière's Globish and Grzega's Basic Global English. Sadly, no core vocabulary set seems to have been chosen in a very scientific way, but there is no reason it could not be done.

At this point, I should probably mention the interesting experiment that is Toki Pona, a conlang that has a lexicon of merely 120 words (in comparison, Basic English has 850, and the OED has about 300000 main entries), which supposedly can be learnt to the point of fluency in two days. Toki Pona certainly isn't a reasonable candidate for an international language, let alone for scientific or technical communication: it is more like a zen concept of a happy language with a delightful logo; but it should at least encourage us to rethink questions like how many words does a language need? how complicated does it have to be? how long should it take to learn?.

But back to English.

Its syntax is highly ambiguous, In fact, syntax is perhaps a bit too exalted a term for what English has: paratax is more like it. By this I mean that English merely juxtaposes words in a number of situations where many other languages will somehow connect them with a kind of grammatical particle (e.g., conjunction, preposition, postposition, or whatever the language uses).

The most egregious examples of paratax in English are (A) the omission of any kind of connective between modifier nouns and the noun they relate to (e.g., a metal ▢ box, a book ▢ page, a football ▢ player, the village ▢ church, a gift ▢ shop, a police ▢ officer, a syntax ▢ ambiguity, and so on, where the box symbol denotes omission of a connective; note that the underlying relation differs from one example to the other, and might be expressed using different prepositions in other languages); (B) the optional omission of the conjunction that in various subordinate clauses, most typically indirect discourse, especially in informal speech (she said ▢ she would come, I wish ▢ you were there, it's true ▢ it can be done, and so on: here, the box can always be replaced by that), and (C) the optional omission of the relative pronoun when it serves as object in the relative clause (the sentence ▢ she just read, stuff ▢ I made up, and so on: again, the box can be replaced by that, except that now it is a relative pronoun and not a conjunction). The use of the bare infinitive with an oblique pronoun as subject, as a subordinate clause (I hear ▢ him speak—I don't know exactly how English grammarians call this), can also be considered a form of paratax. The problem with these various omissions is that, while they make sentences terser, they also deprive us of valuable clues as to how the sentence should be parsed. Now combine this with English's endless supply of nouns that can also function as verbs (truly unlimited, following the well-known adage that in English, any noun can be verbed), or more generally the number of words that can exist as different parts of speech, a phenomenon known as class ambiguity, not to mention that past participles and preterites often have the same form, and we have a mess.

Newspaper headlines, because they tend to omit even more words (like determiners, and the copula is or are), are even more ambiguous than “ordinary” English, to the point that it has become something of a recurring joke (Police Helps Terrorist Attack Victims, Court to Try Shooting Defendant, Experts Hear Car Talk, Crowds Rushing to See Pope Trample Man to Death, Student Loans Mushroom, the list goes on).

True, the overwhelming majority of English sentences in normal use can only be parsed in a single way, or at least a single way that makes sense. Most examples of truly ambiguous sentences, or initially ambiguous sentences (garden path sentences like the cotton clothing is made of grows in Mississippi) are contrived or improbable. Or at least improbable in any given context (abuse pains!, I see her duck).

If we hear the story told the previous week was true, even though it is, technically, syntactically ambiguous, we know that it should be interpreted as ‹the story [that] was told [during] the previous week› was true, not the story told [≈said] ‹[that] the previous week was true›. (Unless the context calls for it: Ada's story was stirring something in my mind: I had lived so many lies and falsehoods, but not last week—no, last week was different, Ada's words revealed something that I had not dared to hope: these days were not a lie, Ada's words said to me—the story told the previous week was true.) If a scientific paper, say, contains a sentence such as the experiment shows result X is impossible, obviously the meaning is that the experiment shows (proves, demonstrates) that result X is impossible, not that experiment ▢ shows (whatever they may be) result in that X is impossible. And so on. But the fact remains: parsing an English sentence requires more brain effort (be it unconscious) than for a number of other languages that I can think of and which don't have so many ambiguities. (English, of course, is not alone in having ambiguities. I remember, when I was learning Latin, that I could always come up with several alternative ways to analyze a rhetoric period, some of which made more or less sense, and I was often angry when I was told my translation was wrong because it seemed to me that it was defensible and there was no way I could have known that I should have preferred such-or-such other meaning. Eduardum occidere nolite timere bonum est.) Even if this effort is nearly unnoticeable for native/proficient English speakers, it could considerably complicate the task of someone who does not know a word, or who is struggling with the overall meaning because they are not wholly familiar with the scientific field. Conversely, when English is not the author's first language, they might come up with syntactical constructions which have a wholly different meaning than intended; or a simple mistake in a word might turn the entire sentence's syntax upside down. Such features are undesirable, to say the least, in a language used for international communication.

And if it can be bad when both ends of the communication are well-intentioned and cooperative, it is worse yet when they are at odds and actively trying to misinterpret each other's words—typically in matters of international law and litigation. There is the famous case of UN Security Council resolution 242 and the reading of the sentence withdrawal of Israel armed forces from territories occupied in the recent conflict, which because English omits articles in a generic or indefinite plural context, is ambiguous (from the (=all) occupied territories or from some occupied territories?): here the French version makes the intended meaning clear (retrait […] des territoires occupés, not de territoires occupés), and part of the debate is whether it is equally authoritative; now this is not quite the sort of ambiguity I was referring to earlier, and in this respect English is at least better than the many languages that simply do not have articles, but the point remains that international norms of any importance should always be written in several languages, all having equal force of law, not just English (or even any single language). English and French may not be an ideal choice of languages, but they are certainly better together than English alone. However, not every context where the English language is in use can afford the same resources that are available when negotiating international treaties (where we can assume that translators aren't the most difficult or costly part of the negotiation).

Can something be done to tame English's syntax ambiguities? Unfortunately, we are (collectively speaking) unreasonably conservative when it comes to language, so any attempt to reform English is doomed by our stubbornness, just as it is futile to suggest replacing English by some other language. The best that can be done is probably for editors, in any context of international or scientific communication, to forbid the syntactic omissions (B) and (C) mentioned above (and also (A) when it can be avoided), and to be otherwise vigilant for ambiguities. Even this modest advice is possibly a lost cause, like the aforementioned idea of restricting oneself to a simple subset of the English lexicon. A bolder suggestion would be to use some sort of special marker, a new punctuation sign, perhaps the single guillemets (‹…›), to mark syntactic groupings in any kind of complex sentence (the point being ‹that this “enriched” English can still be read as English ‹if we ignore the guillemets›› so ‹that the latter simply serve as hints in figuring out the correct parse tree›): but I know too very well that even this idea has no chance of catching on (and again, this should serve as a reminder of how we are incapable of taking intelligent collective decisions).

But on to my third point, which is now about spoken English.

Its pronunciation is unclear. There are several aspects to this.

The first part is how little relation there is between the written and the spoken forms of a word. Some languages are bad in this respect, but English is downright atrocious, as an infamous poem illustrates (see also this table of vowels). Some languages have irregular spelling (French, for instance, is very bad in this respect) or irregular pronunciation; some leave out important information in their spelling (such as Russian, which doesn't put stress marks, or Arabic, which generally doesn't mark short vowels); some (like Chinese or Japanese) don't even really try to make written and spoken forms match without the help of huge tables of characters that must be learnt; but English just makes it all look like a bad joke. It simply makes no sense for the language chosen for international communication to not only have a gigantic lexicon, but also force its learners to memorize each word twice because there is essentially no way to connect the written and spoken versions. But also, because there is simply no form of logic relating written and spoken English, when a new technical term is coined, or when a foreign term is imported, nobody knows how to pronounce it, because there is no logic that can be applied, and no preexisting usage. (The word neologism, in fact, may be a good example: there is no way to guess where the stress should fall, and different people will put it in different places. As for imported words, consider the last letter of the Greek alphabet, the astronomical bodies Uranus and Io—or just about any word imported from the French pour faire chic.) And it's not just annoying that people pronounce things “wrong”, it can be a real cause for confusion. (Random examples: if someone pronounces signal by applying the same logic as sign, it could easily be confused with final; if someone is not aware that record is pronounced differently according as it is a noun or a verb, it can lead to the class ambiguities that I discussed earlier.) Conversely, native English speakers pronouncing words “correctly” might confuse non native speakers. (Someone who doesn't know that in English RP, the words iron and ion are often pronounced identically as /ˈaɪ.ən/ might be in for a surprise in a chemistry talk. Someone who isn't aware of the pronunciation of American intervocalic ‘t’ might understand writer, /ˈɹaɪt̬ɚ/, as rider.)

To make things worse, English has a number of different accents. These differ mainly by their vowels but, as English is not a Semitic language, vowels are essential, and we get a lot of cross-accent homophones. I like to point out that an Englishman's pronunciation of part, /pɑːt/, might well be nearly identical with an American's pronunciation of pot (this remark often confuses French people, who are typically unaware of the r-dropping of accents of England or of the unrounding of American ‘o’). The way an Australian says sane buy (/sʌɪn bɑɪ/) could easily be understood as sign boy by an Englishman or an American. John Wells reports in one of his books how a Canadian describing his son as autistic received congratulations by English people who had understood the word /ɑːˈtɪstɪk/ as artistic. I already mentioned how my father and I were once told in London to look for the Shaw Theatre (/ˈʃɔː ˈθɪətə/) and spend some time fruitlessly looking for the Shore Theatre. And, to give another famous example, Americans believe Canadians say a boot when they say about (/əˈbəʊt/).

But even within the context of a single accent, English pronunciation is unclear. The realization of vowels is subtle, especially compared to the clear cardinal vowels (in contrast, the vowels of Italian are very crisp and fall rather squarely on the cardinal vowels). Some distinctions are downright fussy and yet have minimal pairs: compare cup /kʌp/ with cap /kæp/; or kin /kɪn/ with keen /kiːn/ (many native French speakers are unable to distinguish these) or more subtly spirit /ˈspɪɹɪt/ versus spear it /ˈspɪəɹɪt/ (American accents typically merge these); or sale /seɪl/ and sell /sɛl/ or more subtly Mary /ˈmeəɹi/ versus merry /ˈmɛɹi/ (again, American accents typically merge these); or full /fʊl/ and fool /fuːl/ (Scottish accent merges these); or book /bʊk/ and buck /bʌk/ (the result of a historical split; accents from the north of England do not have it); or the very fussy distinction between hurry /ˈhʌɹi/ and furry /'fɜːɹi/ (not all accents do this, and there probably isn't a STRUT-NURSE minimal pair, but I'm not sure either way). All of these are a possible source of confusion. Different people might have different difficulties: German speakers find that pat /pæt/ is close to pet /pɛt/ whereas French speakers find that it is closer to part /pɑːt/ in non-rhotic accents (so, a more convincing example: Pam /pæm/ and palm /pɑːm/). As for week vowels, they are essentially useless in distinguishing words: English RP does not distinguish /ə/ and /ɚ/ (tuna and tuner, for example), and Australian does not even distinguish weak /ɪ/ (making pick it homophonous with picket, or boxes with boxers). English consonants aren't quite as bad, but non native English speakers might still have trouble distinguishing, for example, sin /sɪn/, thin /θɪn/ and shin /ʃɪn/, or at least a subset of these (and I already mentioned the trouble between writing, /ˈɹaɪt̬ɪŋ/, and riding, /ˈɹaɪdɪŋ/ in American English, which may or may not be homophonous).

This is not just a theoretical worry. I have had many occasions to observe how English spoken over a noisy channel, has distinctly worse error-correcting capabilities than French.

Can we do something about it? As far as the mess that is English spelling goes, probably nothing (𐑕𐑹𐑰, ·𐑖𐑱𐑝𐑾𐑯 𐑓𐑨𐑯𐑟!). As far as English accents and confusion between them goes, however, I again have a modest proposal of which I am fully aware that nothing will come: invent a standard world English accent by mapping the English phonemes to sounds that are chosen so as to maximize clarity and have some degree of logic, while remaining generally within the realm of variation of existing English accents (something like KIT→[ɪ], DRESS→[ɛ], TRAP→[a], LOT→[ɔ], STRUT→[œ], FOOT→[ʊ], BATH→[a], CLOTH→[ɔ], NURSE→[øːɹ], FLEECE→[iː], FACE→[eː], PALM→[ɑː], THOUGHT→[ɔː], GOAT→[oː], GOOSE→[uː], PRICE→[aɪ], CHOICE→[ɔɪ], MOUTH→[aʊ], NEAR→[iːɹ], SQUARE→[eːɹ], START→[ɑːɹ], NORTH/FORCE→[ɔːɹ] and CURE→[uːɹ]: this would be somewhat similar to a French or Italian accent, which English speakers are able to understand; and for consonants: no voicing of intervocalic ‘t’, no loss of rhoticity, and no h-dropping). Introducing a new accent is not like reforming English, because it is meant to become one new accent among many, not replace any existing one. The major shift in paradigm would be to realize that this accent is no more wrong than any existing English accent, and that there is no reason not to teach students to speak like this instead of demanding that they simulate an RP or General American accent (there is a great deal of hypocrisy in this respect: English RP and American accents are no more correct than, or preferable to, Scottish, Irish, Australian, Indian, Nigerian, South African or American Southern accents, yet they are considered the norm when teaching English to foreigners—why?). We should keep in mind that English RP, which is now considered the “standard” British English, (1) is, to a large extent, an artificial construct (an effect of the English public school system, as witnessed by its earlier name Public School Pronunciation, that was popularized by the BBC's deliberate choice of RP as a non-regional English accent for its broadcasts, whence it being also widely known as BBC English), and (2) is the native accent of only a small, albeit influential, proportion of the English population (perhaps 2 to 5 percent), which, of course, is itself a small proportion of the native English-speaking population on Earth (note: many Americans refer to RP as British English, which is completely wrong and fairly insulting).

Here is a broader point: if English is to be a “Globish” language common to all the peoples of Earth, all the peoples of Earth should realize that they are its owners, no less than the “native speakers”. So long as there is no dictionary of international English, that (as opposed to the specifically national Oxford English Dictionary and Merriam-Webster's Collegiate Dictionary) would record all global usage of English, and not just in “English-speaking” countries, — so long as the forms of English taught in schools and universities throughout the world are based on those spoken in a very small set of countries (considered as more “correct”), — English cannot truly be said to be part of our common heritage as would behoove the lingua franca of all mankind. Both the prescriptivist and the descriptivist sides have to ask themselves how world English should be defined, instead of avoiding the question as I believe they have mostly been doing. But here I digress away from the specific issues with English as a language of international communication to the general problem with choosing one particular language in this role, and the unfairness associated with this choice—and this is something I would rather leave to a later entry.


Caractères arabes désordonnés

[Affiche d'instructions]Pendant le week-end, des panonceaux sont apparus un peu partout dans l'école où je travaille (cf. photo ci-contre, cliquez pour agrandir) avec des instructions de sécurité, en français, anglais, espagnol, chinois, russe et arabe (c'est-à-dire l'ensemble des langues officielles de l'ONU, qui sont un ensemble assez raisonnable de langues à choisir si on veut être largement compris dans le monde : j'approuve donc ce choix, même si je ne suis pas totalement convaincu de son utilité réelle à cet endroit précis, mézenfin).

Je ne vais pas chercher à pointer du doigt les fautes de traduction. Mais regardons un peu les caractères arabes utilisés sur cette affiche. Si j'essaie de reproduire l'effet en HTML, ce sera quelque chose comme ceci :

‭‌ت‌ع‌ل‌ي‌م‌ا‌ت ‌ا‌ل‌س‌ل‌ا‌م‌ة‌‬

(sur un navigateur avec les bonnes polices et bien respectueux des standards, ce qui précède devrait reproduire les caractères arabes en blanc sur bleu juste après Правила Безопансости, qui devrait d'ailleurs être Правила Безопасности). En fait, ce qu'on voulait écrire est plutôt ça :

تعليمات السلامة

Vous ne voyez pas la ressemblance ? Le problème est qu'on a écrit les bonnes lettres arabes, mais (1) de gauche à droite, alors que l'arabe s'écrit de droite à gauche, et (2) sans les lier entre elles, alors que l'arabe a une écriture cursive où les caractères se connectent les uns aux autres (et changent de forme en fonction de cette connexion). Même sans connaître l'alphabet, en comparant les deux versions ci-dessus (du moins, si votre navigateur les a affichées correctement), sachant que les points marquant certaines lettres ne changent pas quand on connecte la lettre à d'autres, vous devriez voir la correspondance.

C'est un bug que j'ai vu assez souvent, quoique jamais encore sur un panneau officiel. J'avais déjà donné un exemple dans une entrée passée (mais là je ne suis même pas sûr que c'était des mots arabes et pas juste des lettres tapées au hasard). J'avais aussi vu passer cette photo prise à l'US Open autour de 2013 (les caractères arabes sont en bas à droite : c'est censé être quelque chose comme القادمين بنر حب, dont je ne suis d'ailleurs pas convaincu que ça veuille dire grand-chose, mais en tout cas c'est mal écrit et ça ressemble à ‌ا‌ل‌ق‌ا‌د‌م‌ي‌ن ‌ب‌ن‌ر ‌ح‌ب‌ — pour le coup, au moins, c'est dans le bon sens). Et je me souviens aussi avoir vu un acteur porno gay avec un tatouage tout aussi mal écrit aux alentours de son nombril, un de mes lecteurs va certainement pouvoir me dire qui c'était exactement.

Mise à jour : L'information a été remontée, et les panneaux dans mon école vont être corrigés ou refaits.

Je suppose que c'est ce qui se produit quand quelqu'un fait du copier-coller de caractères Unicode arabes dans un logiciel qui ne gère pas du tout les écritures de droite à gauche et/ou les complexités typographiques des écritures présentant des ligatures. (Par exemple, dans un terminal texte sous Unix, l'arabe a effectivement tendance à ressembler à ce genre de monstruosités.) Je suppose que la personne qui copie-colle n'a aucune connaissance de l'écriture arabe et reçoit les caractères à copier-coller de quelqu'un qui les a écrits correctement, et il fait confiance, à tort, au logiciel pour ne pas massacrer les choses lors du copier-coller. Maintenant, c'est quand même triste, à la fois que ce genre d'erreurs se produisent (i.e., qu'il existe des logiciels de mise en page incapables de gérer la bidirectionalité, et qui n'affichent pas, au minimum, un énorme avertissement si on essaie de taper de l'arabe), et qu'elles ne soient pas détectées, i.e., qu'il y a des gens à ce point ignorants de ce qui est quand même une langue relativement fréquemment parlée en France, pour ne même pas savoir à quoi son écriture ressemble (et spécifiquement, que les caractères sont liés les uns aux autres). Surtout que là, des gens parlant arabe et qui vont passer devant le panneau, il y en a (et ce n'aurait pas été difficile d'en trouver pour relire l'affiche avant de l'envoyer à l'impression !). Ou pour remarquer que c'est suspect que les caractères s'insèrent de la gauche vers la droite et ne présentent aucun signe de directionalité droite-vers-gauche. (OK, on peut s'imaginer que l'informatique a décidé de gérer l'arabe en stockant les textes à l'envers pour faire semblant qu'il va de gauche à droite, mais on doit quand même vite se rendre compte qu'il y a plein de problèmes avec ça.)

C'est le genre de choses qui me fait trouver qu'il devrait y avoir des cours de culture générale à l'école, où on apprendrait entre autres des généralités sur les langues du monde, et au minimum à savoir reconnaître les grands systèmes d'écriture et un peu à quoi ils ressemblent. Je ne parle pas forcément de savoir distinguer du tamoul et du malayalam, mais au moins d'avoir des grandes idées sur les principes de différents systèmes d'écritures. Pour un fou d'Unicode comme moi, ce sont des connaissances aussi basiques que de savoir que la première guerre mondiale a duré de 1914 à 1918.


Quelques questions de langue et de cohérence

Je dis souvent que s'agissant de conventions linguistiques et typographiques, le plus important est d'essayer d'être un peu cohérent et systématique. Et pour ça, il est important de se fixer des règles dont on trouve la logique satisfaisante, de manière à ne pas toujours changer d'avis. Mais ce n'est pas facile quand on se met à couper les cheveux en quatre.

Voici un exemple du genre de questions dont je veux parler : si je dois faire référence (alors que je parle français ou anglais) au premier président de la Chine communiste, dois-je l'appeler Mao Zedong ou Zedong Mao ? (Ou Máo Zédōng en écrivant les tons, mais pour une fois ce n'est pas ça qui me préoccupe.) Le fait est que le nom de famille est Mao (), et la question est de savoir comment l'ordonner par rapport au prénom (enfin, au nom personnel, qu'il vaut mieux ne pas appeler prénom quand on discute justement de l'ordre de placement). Les sinophiles me disent généralement que la question ne fait pas l'ombre d'un doute, en chinois le nom de famille précède le nom personnel : c'est incontestablement le cas quand on utilise un nom chinois en chinois, mais ici je parle d'utiliser un nom chinois en français, et il s'agit donc de se demander qui l'emporte, la convention chinoise ou la convention française — ou plus exactement, de savoir si l'ordre des parties d'un nom propre est relié au nom lui-même ou à la langue dans laquelle on s'exprime, et ce n'est pas évident du tout.

Il est sûr que la question ne peut pas admettre de réponse pleinement satisfaisante. Il y a trop de cas dictés par l'habitude pour qu'on puisse espérer être complètement cohérent : s'agissant de Mao Zedong, l'usage français s'est figé dans cet ordre, mais inversement, il y a un nombre non négligeable, par exemple, de Hongrois, pour lesquels on a pris l'habitude de retranscrire leur nom dans l'ordre prénom+nom (par exemple Erdős Pál → Paul Erdős), et de toute façon les célébrités ont souvent des bizarreries de nommage (pourquoi parle-t-on de Jules César mais de César Auguste ? — noter qu'aucune des deux parties, ici, n'est un prénom, le prénom de naissance serait Gaius pour les deux, mais Auguste a changé son prénom en Imperator en ~38 ; pourquoi Dante Alighieri, Michelangelo Buonarroti et Rembrandt Harmenszoon van Rijn sont-ils connus par leur prénom ? à la fin, il faut cesser de chercher une logique et reconnaître que l'usage fait loi). On peut néanmoins chercher à systématiser l'usage pour les personnes qui ne sont pas spécialement célèbres. Une solution est de choisir un ordre quelconque et de mettre le nom de famille en petites capitales ou de le souligner d'une manière ou d'une autre (quand il y en a un identifiable, ce qui n'est pas toujours le cas, notamment pour certains noms indiens ou les noms islandais), et d'écrire Máo Zédōng ; je ne suis pas fan de cette solution, que je trouve assez laide (quand on a un texte plein de noms propres, ça donne une impression vraiment trop didactique-pontifiante), mais il faut admettre que c'est ce qu'il y a de plus clair.

Voici un problème apparenté : supposons que je veuille parler de la personne élue à la tête d'une municipalité belge, disons, Namur : dois-je parler du maire de Namur ou du bourgmestre de Namur ? Là aussi, on me sort généralement une réponse un peu toute faite : en Belgique, on parle de bourgmestres — certes, c'est-à-dire que les Belges utilisent le terme bourgmestre pour désigner l'édile de leurs villes, mais moi je ne suis pas Belge, et je parle, si j'ose dire, dans une variante du fr-FR et non du fr-BE. Ce que je veux dire, c'est qu'il n'est pas du tout clair si le choix d'un titre comme maire ou bourgmestre doit être déterminé par la variante régionale du français qu'on parle ou par le pays qui attribue la fonction officielle. (Dans le genre, si je veux désigner l'adresse rue Rogier 70 à Namur, il semble raisonnable de penser que je doive mettre le numéro après le nom de la rue parce que c'est ainsi qu'on fait en Belgique, mais nettement moins raisonnable de penser que je doive obligatoirement prononcer septante parce que les Belges disent ça et que c'est une adresse en Belgique.)

En l'occurrence, je suis plutôt tenté de considérer l'usage du mot bourgmestre comme un régionalisme belge (qui, du coup, apparaît dans les textes légaux définissant la fonction) que comme une fonction spécifique dont le nom doit être préservé. Après tout, pour les villes néerlandaises, allemandes et autrichiennes, on a bien tendance à préférer en français (de France) le terme de maire même si ces gens devraient logiquement être tout autant bourgmestres que leurs homologues belges. Et je n'ai presque jamais entendu utiliser en français le mot alcade pour une ville espagnole ou syndic pour une ville italienne alors que ces mots existent. Mais surtout, je vois mal quelle différence fonctionnelle on peut trouver à l'usage d'un mot ou de l'autre : les anglais disent presque toujours mayor pour la personne à la tête d'une ville, ou qu'elle soit, même si la transcription burgomaster ou burghermaster existe en principe, et ça ne semble pas causer de problème. De toute manière, j'ai déjà souligné (sur l'exemple du président du Conseil et ses variantes) à quel point les titres officiels sont la province du Club Contexte. Bref, il me semble plus simple et finalement plus cohérent de parler de maire partout, y compris pour les villes belges, ou alors de parler de bourgmestre partout si on préfère ce mot, mais en tout cas de ne pas faire la distinction selon le pays ou le titre officiel.

Encore une question du même acabit : il est fréquent d'utiliser en français des guillemets « comme ceci », en anglais “comme ça” (ou ‘ça’) et en allemand „ainsi“ (ou »ainsi«), à tel point que certains considèrent que c'est une obligation de conformer le choix des guillemets au choix de la langue (à mon avis, c'est parfaitement stupide, cf. ci-dessous). Maintenant, en admettant qu'on fasse ces choix pour un texte entièrement écrit dans une langue, la question se pose encore de savoir ce qu'on doit faire quand on en mélange plusieurs : le choix des guillemets (et autres conventions typographiques apparentées) doit-il être dicté par la langue majoritaire du texte (pour avoir une même convention sur tout le texte), par la langue immédiatement autour, ou, dans le cas des guillemets, par la langue intérieure aux guillemets ? — et de nouveau, ce n'est pas du tout évident. Je fais personnellement le choix de régler les conventions selon la langue immédiatement autour (et donc, dans le cas des guillemets, extérieure aux guillemets), mais pour revenir à ce que je disais tout au début, le plus important me semble d'essayer d'être cohérent (et par exemple, quoi qu'en disent les maniaques du Lexique des règles typographiques en usage à l'Imprimerie Nationale — ouvrage d'ailleurs fort mal écrit et fort peu cohérent[#] — je trouve parfaitement raisonnable qu'on décide d'utiliser les mêmes conventions typographiques dans tout ce qu'on écrit, indépendamment de la langue, pour plus d'uniformité).

[#] Le plus ironique étant que ce Lexique préconise très clairement d'utiliser des accents sur les capitales alors que l'Imprimerie Nationale édite elle-même le Journal Officiel de la République française sans mettre ces accents ! Et je remarque aussi que selon les règles qu'ils donnent sur l'emploi des majuscules (ou du moins l'espèce de cafouillis qui tient lieu de règles dans ce Lexique) il serait plus logique d'écrire Imprimerie nationale et Journal officiel que Imprimerie Nationale et Journal Officiel. Bref, une chose est sûre, c'est qu'ils ne savent pas ce qu'ils veulent. Je ne comprends pas que ce livre ait malgré tout du succès auprès des maniaques ! Mais au sujet des majuscules à Imprimerie Nationale, voici une autre question du même genre : faut-il suivre l'usage défini par l'organisme qui porte le sigle ou bien uniformiser dans le texte ? (autrement dit, si moi je trouve plus cohérent d'écrire Imprimerie nationale parce que l'adjectif suit le nom, dois-je quand même mettre une majuscule à celui-ci parce que ce choix fait partie du nom ou dois-je considérer que ma convention l'emporte ?).


Une histoire sans mots de Xu Bing

Je suis tombé complètement par hasard sur un livre de l'ariste chinois (ou sino-américain) Xu Bing (徐冰) intitulé Une histoire sans mots. Enfin, ça c'est le titre sous lequel le livre est paru en France, mais c'est plutôt une description qu'un titre : aux États-Unis il est paru (ou va paraître) sous le nom From Point to Point, et en chinois sous le nom 从点到点 (dont le titre anglais est la traduction), mais en fait le vrai titre de ce livre est plutôt quelque chose comme : • → 👨 → • (un point, une flèche vers la droite, le dessin d'un homme, une flèche vers la droite, un point ; malheureusement, Unicode n'a pas le simple dessin d'un homme stylisé comme on utilise par exemple pour représenter les toilettes pour homme, ce qui est d'ailleurs vraiment bizarre, alors j'ai mis un U+1F468 MAN à la place, mais le glyphe de référence est une tête — passons).

L'édition française n'est pas une traduction de l'édition chinoise ou américaine, puisqu'il n'y a rien à traduire : comme le dit le titre français, il s'agit d'une histoire sans mots. Racontée uniquement avec des pictogrammes ou idéogrammes : je ne rentrerai pas dans la question byzantine de la différence entre les deux, qui est souvent très floue, mais en tout cas il ne s'agit pas d'idéogrammes chinois, mais de symboles très internationaux comme celui dont je me plains de l'absence dans Unicode au paragraphe précédent, des flèches, des signes de ponctuation, des smileys, des symboles mathématiques, des icônes largement connues, des panneaux routiers, des logos de marques, des dessins stylisés d'objects courants, etc.

Le thème de l'histoire, c'est 24h dans la vie du héros, dont on ne sait pas le nom mais qui est représenté par le dessin d'un homme stylisé noir (les autres personnages sont représentés de différentes autres couleurs). Pour donner une idée, voici à quoi ressemble un passage qui raconte que le héros reçoit un mail d'un couple d'amis annonçant qu'ils ont eu un enfant et invitant à regarder la photo en attachement, que le héros regarde la photo, trouve le bébé plutôt monstrueux, mais se dit qu'il vaut mieux ne rien dire, donc répond en disant qu'il a vu la photo, qu'il trouve le bébé très mignon, félicitations :

[Court extrait de l'histoire sans mots de Xu Bing]

Cet extrait est (je trouve) relativement représentatif. Globalement, l'histoire se comprend assez bien, même s'il faut parfois réfléchir un peu (quelques passages sont des petits casse-tête) et j'avoue que quelques fois je n'ai compris que l'idée générale et pas toutes les nuances. C'est surtout très amusant à lire, à la fois par le contenu de l'histoire et par l'astuce avec laquelle certaines idées sont véhiculées, et je pense que c'est ça qui intéresse l'artiste. On peut regretter que les symboles utilisés manquent parfois un petit peu de cohérence (par exemple, les symboles de mains approbatrices ou de certains objets comme le téléphone varient de façon assez inexplicable), ou qu'ils ne soient pas toujours très soignés (certains smileys sont grossièrement pixellisés), mais le concept, en tout cas, me plaît énormément, et je suis assez impressionné du résultat.

Je pense que l'expérience est intéressante non seulement artistiquement mais aussi du point de vue des sciences cognitives. Il faudrait voir à quel point le livre est compréhensible dans tous les pays (même si rien n'est dit explicitement du lieu où se passe l'action, il y a quand même des éléments culturels qu'on peut relever, par exemple le fait que les toilettes du héros sont la même pièce que la salle de bains, ou le fait que les gens sur les réseaux sociaux de rencontres indiquent quel est leur groupe sanguin). Il faudrait mesurer la vitesse à laquelle on déchiffre (certainement beaucoup plus lente qu'un texte écrit avec des mots). Il faudrait voir à quel point c'est compréhensible par un enfant, par des personnes ayant subi des dommages aux zones du langage dans le cerveau, que sais-je encore.

Le « langage » dans lequel le livre de Xu Bing est écrit est destiné à être spontanément compréhensible sans apprentissage préalable, même si l'auteur utilise, et je pense qu'il fait bien, un certain nombre de conventions avec lesquelles on se familiarise assez vite : par exemple, les heures du jour et de la nuit sont indiquées par des pendules blanches et noires respectivement, certaines précisions sur une idée sont développées entre une paire de parenthèses reliée à l'idée principale par un tiret, et quelques autres choses du même genre. En s'autorisant un apprentissage minimal, on peut probablement mettre en place un langage idéographique encore beaucoup plus expressif que le code de ce livre, et néanmoins beaucoup plus facile à apprendre qu'une langue naturelle, qui pourrait avoir un intérêt non nul comme système de communication internationale primitif. Je sais qu'il y a quelques tentatives dans ce sens, notamment les symboles Bliss (sur lesquels j'aimerais bien en savoir plus, et dont je m'impatiente qu'ils entrent dans Unicode), ou encore une application pour téléphones mobiles appelée iConji, dont l'utilité potentielle est malheureusement réduite à néant par le fait qu'elle est propriétaire : le principe général me semble très bon, je trouve dommage qu'il ait été si peu exploré (et que les seuls inventaires vaguement utilisables d'idéogrammes soient les caractères égyptiens et chinois, tellement liés aux spécificités de ces civilisations).


Pourquoi Shakespeare fait-il rimer love et prove ?

[Ceci est un résumé d'un débat que j'ai eu tout récemment avec deux ou trois amis férus de linguistique.]

Dans cette vidéo qui discute de la réconstitution de la prononciation de l'époque de Shakespeare, il est question (à partir de 6′) du sonnet 116, qui se termine par les vers :

If this be error and upon me proved,
I never writ, nor no man ever loved.

De nos jours, évidemment, loved (/lʌvd/) et proved (/pɹuːvd/) ne riment absolument pas. Il est possible qu'ils n'aient pas non plus rimé à l'époque de Shakespeare (i.e., que la rime soit purement graphique) ; mais David Crystal (le vieux barbu dans la vidéo), dans cet article expose des arguments assez convaincants pour expliquer que si, en citant notamment la grammaire anglaise de Ben Jonson (qu'on peut trouver en ligne ici, je recommande la version DjVu parce que la version PDF met dix secondes à changer de page sur mon ordinateur), où ce contemporain de Shakespeare écrit (page 17 de l'édition mentionnée, 37 du fichier DjVu) :


Is pronounced with a round mouth, the tongue drawn back to the root; and is a letter of much change and uncertainty with us.

In the long time it naturally soundeth sharp, and high; as in

chósen, hósen, hóly, fólly; ópen, óver, nóte, thróte.

In the short time more flat, and akin to u; as

cosen, dosen, mòther, bròther, lòve, pròve.

[…] It holds up, and is sharp, when it ends the word, or syllabe; as in

gó, fró, só, nó.

Except intò, the preposition; twò, the numeral; , the verb, and the compounds of it; as undò, and the derivatives, as dòing.

It varieth the sound in syllabes of the same character, and proportion; as in

shòve, glòve, gróve.

Which double sound it hath from the Latin; as

voltus, vultus; vultis, voltis.

— il confirme donc explicitement que love et prove avaient la même voyelle et de plus que cette voyelle était brève. (Dans la vidéo, les deux mots sont prononcés avec la voyelle /ʌ/ de STRUT, qui est celle de love en anglais moderne, mais comme je vais le dire je pense que c'est incorrect.)

L'explication évidente à première vue serait la suivante : à l'époque de Shakespeare, love et prove avaient la même voyelle, et pour une raison ou une autre, ces voyelles ont divergé. Mais la réalité est forcément plus compliquée, et comme je vais l'expliquer il y a un certain mystère là-dessous.

La première chose qu'il faut savoir c'est qu'en moyen anglais, love s'écrivait luve (de l'ancien anglais lufu) : la raison pour laquelle la voyelle a changé de ‘u’ à ‘o’ est purement graphique et ne reflète aucun changement de prononciation — c'est probablement simplement que dans l'écriture minime il était difficile de se repérer dans une succession de jambages, donc on a préféré écrire un ‘o’ plutôt qu'un ‘u’ avant un autre ‘u’ (qui est maintennat un ‘v’). Mais le mot love a toujours eu en anglais un ‘u’ bref. Cette voyelle a subi plus tard (après Shakespeare), dans la plupart des accents anglais (excepté celui du nord de l'Angleterre) ce qu'on appelle le FOOT-STRUT split, c'est-à-dire qu'elle a donné deux voyelles différentes en anglais moderne, le /ʊ/ de FOOT (comme dans put) et le /ʌ/ de STRUT (comme dans cut) : le mot love a pris la branche STRUT et c'est sa prononciation actuelle ; mais a priori cette division ne nous concerne pas, puisqu'à l'époque de Shakespeare elle n'avait pas eu lieu, et love devait donc avoir le ‘u’ bref commun, probablement prononcé assez près de [u] (donc avec le même timbre que la voyelle actuelle de GOOSE, mais en plus bref).

Ce point étant éclairci, passons au mystère de prove. En moyen anglais, il s'écrit avec un ‘o’ (il vient de du français normand prover), et comme l'orthographe du moyen anglais est a priori assez phonétique, il y a lieu de penser qu'il ne rimait pas avec love, disons, au XIIIe siècle (même s'il n'est pas complètement interdit de penser que les choses ne soient pas claires : déjà, en français, prover s'est bien transformé en prouver d'une manière ou d'une autre). Si ce ‘o’ était long, il se serait altéré régulièrement, au cours du XVe siècle, sous l'action du Great Vowel Shift, vers le timbre /uː/ qu'il a actuellement. Ce serait l'explication la plus plausible, mais ceci voudrait dire qu'à l'époque de Shakespeare prove aurait eu un /uː/ (long !) alors que love aurait eu un /u/ (bref !), donc la rime serait imparfaite et surtout, ceci contredit l'affirmation explicite de Ben Jonson (cité ci-dessus) selon laquelle la voyelle de prove est brève. D'où le mystère.

Comment expliquer ce mystère ? Je vois deux pistes, dont aucune ne me satisfait franchement (mais qui sont toutes les deux d'accord sur le fait que la voyelle des deux mots à l'époque de Shakespeare devait être /u/). La première est la suivante :

C'est assez déplaisant de devoir supposer que la prononciation aurait changé (fût-ce seulement chez certaines personnes) à l'époque de Shakespeare pour revenir ensuite à ce qu'elle était.

Autre explication, qui me plaît encore moins :

Cette explication pose deux problèmes : d'abord, l'écriture prove est attestée au début du XIIIe siècle d'après l'OED, donc sans doute trop tôt pour pouvoir être par imitation de love ; ensuite, on ne voit pas de raison évidente pour laquelle la prononciation de prove aurait divergé de celle de love et de above si elles ont coïncidé jusqu'au début du XVIIe.

Bref, je ne sais pas bien quoi penser. Autre sujet de mystère : pourquoi Ben Jonson, dans le passage cité ci-dessus, ne mentionne-t-il pas la prononciation de LOT (les mots comme not, hot, etc., qui ont maintenant un /ɒ/) ? Il est très étonnant que la seule prononciation qu'il mentionne pour le ‘o’ bref soit celle qui est homophone avec un ‘u’ bref (peut-être est-ce qu'il ne considère que les mots où ‘o’ finit une syllabe ouverte). Bizarrement, David Crystal (toujours le vieux barbu de la vidéo), qui a écrit tout un livre sur la prononciation de Shakespeare, ne mentionne pas non plus cette voyelle dans l'appendice du livre en question où il tente d'expliquer comment prononcer les voyelles de l'époque.


J'apprends un peu plus d'allemand

Comme je l'avais déjà mentionné, j'essaie de perfectionner un peu mon allemand (ou devrais-je dire, de combler les années où je l'ai à peu près complètement laissé tomber, entre la fin de ma prépa et le moment où je suis allé à Berlin), avec l'idée que mon poussinet et moi comptons aller à Munich début septembre. Disons que mon but est de parler allemand mieux que l'Allemand typique ne parle anglais, histoire que ce ne soit pas complètement inutile d'utiliser cette langue — et ce n'est pas forcément acquis. Je combine différentes méthodes : l'Assimil avancé (qui a l'avantage de me fournir un nombre assez limité de phrases avec un nombre assez limité de mots nouveaux que je peux donc réécouter ad lib. jusqu'à ce que ça rentre parfaitement dans ma mémoire essentiellement auditive), le Tagesschau du Norddeutscher Rundfunk, et la lecture du Spiegel. (Ce serait bien si je trouvais un forum intéressant de geeks germanophones, aussi, histoire d'être exposé à un allemand plus informel.)

Une des difficultés de l'allemand est que les noms ont un genre (un parmi trois : masculin, neutre ou féminin). C'est amusant comme le cerveau est fait : si une langue avait trois genres mais que le genre d'un nom fût infailliblement (ou avec très très peu d'exceptions) indiqué par une voyelle à la fin du mot, ce ne serait pas d'une grande difficulté de les apprendre, puisqu'on apprend le mot comme un tout ; mais sous prétexte que le genre, au lieu d'être indiqué par la fin du mot est indiqué par un article qui vient avant (et surtout, qui n'est pas absolument toujours présent), le cerveau le considère comme une information auxiliaire et on a beaucoup plus de mal à l'apprendre ! (Du coup, je me demande comment le cerveau s'en tire pour les langues scandinaves qui indiquent le genre des noms utilisés avec l'article défini, en postposant celui-ci sous forme d'un suffixe, mais pas celui des noms utilisés avec l'article indéfini.) C'est à tel point, d'ailleurs, que l'apprentissage des pluriels est (à mon avis) beaucoup plus facile que celui des genres, et que j'en viens parfois à retrouver le genre d'après le pluriel (si le mot sonne bien avec un pluriel de féminin, il a des chances d'être féminin).

Bref, je me constitue une longue liste de mos courants, ou plutôt de racines courantes (parce que le genre d'un mot allemand est normalement déterminé par son dernier élément, même s'il y a quelques exceptions, soit parce qu'un mot peut avoir deux genres — der Vorteil mais das Gegenteil — soit probablement parce que l'analyse est trompeuse — der Bericht mais die Nachricht : je retiens justement ce dernier parce que je sais bien que les pluriels sont die Berichte mais die Nachrichten). Majoritairement masculins et neutres parce que les féminins sont souvent très reconnaissables (sans compter qu'il est quasiment impossible d'utiliser un féminin sans que ça s'entende, alors qu'on peut facilement faire une phrase où on ne saura pas si un mot est masculin ou neutre). Et tous les jours je les fais afficher par mon ordinateur dans un ordre aléatoire et je contrôle que je les connais tous parfaitement, et quand je fais une faute sur l'un d'entre eux, je me répète quelques phrases l'utilisant et qui mettent bien en évidence le genre. De surcroît, à chaque fois que je pense à un mot allemand, je m'assure d'être certain de son genre (et j'ai une petite application dictionnaire sur mon téléphone qui me permet de faire ça à tout moment). Voilà ce que j'aurais dû faire il y a bien longtemps, parce que maintenant je dois surtout réapprendre une quantité faramineuse de vocabulaire allemand que j'ai mal apprise puisque j'ai fait l'impasse sur les genres. Mais le plus énervant, il faut le dire, ce sont encore les mots importés par l'allemand d'autres langues et qu'on a affublés de genres assez aléatoires : das Internet, der Automat, der Computer, das Hotel, der Bus, die Jeans, etc.

Il n'y a pas, bien sûr, que le genre des mots que je dois apprendre : je ne veux pas donner l'impression que je parlerais parfaitement la langue si ce n'était cette petite difficulté. À vrai dire, mon vocabulaire est cruellement limité (parce que j'ai toujours été passionné par la grammaire alors que je trouvais pénible d'apprendre des séries de mots) et je me fais donc aussi des listes de termes ou d'expressions que je trouve potentiellement utiles. Il y a du vrai dans le fait qu'on apprend plus vite du vocabulaire en allemand que, disons, en anglais, à cause de la possibilité de former des mots composés qui fait qu'il est, au minimum, plus facile de comprendre ou de retenir un mot quand on en connaît les parties (Zufalls+fund : découverte due au hasard) que si c'est, au hasard, un mot importé d'une obscure légende persane (je pense à l'équivalent anglais du précédent : serendipity). J'aime bien dire qu'il n'y a rien de plus mauvais que les « moyens mnémotechniques » qui ne touchent pas à un vrai phénomène, et que pour retenir, par exemple, le un mot dans une langue, si on a du mal, il faut chercher à en garder en mémoire l'étymologie, ou un cognat, ou une expression l'employant, ou quelque chose comme ça qui fasse appel à un vrai fait linguistique : l'allemand est plutôt plus agréable pour ça que d'autres langues. (Je le sais parce que je me fais aussi des listes de mots que j'apprends en français et en anglais.)

Parlant de mots composés, il y a une chose qui m'amuse beaucoup, c'est quand on trouve des étymologies complètement parallèles dans différentes langues. Je me rappelle notamment avoir eu une sorte d'épiphanie en remarquant sur un emballage alimentaire dont les ingrédients étaient indiqués en français, en néerlandais et en grec, que le mot com+position se disait en grec σύν+θεση (synthèse, quoi) et en néerlandais samen+stelling — autrement dit, dans les trois langues, posé ensemble. (En allemand, Zusammen+stellung semble plutôt désigner une com+pilation, tandis qu'une com+position chimique se désignera par Zusammen+setzung, autrement dit, on asseoit les com+posants ensemble plutôt qu'on ne les pose debout : tout est dans la nuance.) Mais je digresse.

Il faut reconnaître que les mots composés allemands ne sont pas toujours très transparents. Je pense par exemple au préverbe ver- que certains analysent comme indiquant la perte de quelque chose, mais qui semble plutôt avoir pour signification de « transformer le sens du verbe de manière complètement imprévisible » (ce n'est pas le seul qui fasse ça, mais ça doit être le plus courant) :

bringenapporter verbringenpasser le temps
führenconduire, guider verführenséduire, tenter
kaufenacheter verkaufenvendre
laufenmarcher, courir sich verlaufense perdre (en marchant)
lagernstocker verlagerndéplacer
lassenlaisser verlassenabandonner
meidenéviter vermeidenéviter, empêcher
passenconvenir, s'appliquer verpassenrater
pflegensoigner, garder, maintenir verpflegennourir, alimenter
ratendeviner, conseiller verratentrahir
schiebenpousser verschiebenrepousser, retarder
sprechenparler versprechenpromettre
sich versprechenfaire un lapsus (en parlant)
stehenêtre debout verstehencomprendre
suchenchercher versuchententer, essayer
tragenporter vertragensupporter
wendentourner verwendenutiliser, employer
zeihenaccuser verzeihenpardonner


J'apprends un petit peu de néerlandais

Je voyage très peu. Que ce soit une cause ou une conséquence de ce fait, je ne sais pas bien, mais c'est en tout cas certainement lié au principe (que je considère comme le minimum de respect à avoir pour tout endroit qui m'accueille, fût-ce brièvement) que je ne mets pas les pieds à un endroit sans avoir fait un effort raisonnable d'apprendre la langue locale. Un effort raisonnable, évidemment, ça ne veut pas dire que je me fixe comme but de la parler couramment, mais il est aussi hors de question de me contenter d'apprendre à baragouiner les mots pour dire bonjour, merci, au revoir et je ne parle pas klingon. Par exemple, en japonais[#], je sais dire ce kimono n'est pas bleu : on ne sait jamais, ça pourrait servir, des fois que le kimono serait rouge. Plus sérieusement, ce qui m'intéresse avec les langues, ce n'est pas tellement d'apprendre des longues listes de vocabulaire, mais d'avoir une idée basique sur la façon dont elle fonctionne, une idée de la logique et de la structure, bref, plutôt de la grammaire[#2] voire de la philologie ; mais aussi arriver à créer un petit compartiment de mon cerveau pour cette langue et pour sa « mélodie » propre. Disons qu'en général le niveau que je vise dans une langue — sans forcément l'atteindre — est à peu près celui qui me permettrait, si j'ai à ma disposition un texte bilingue, de retrouver quel mot de l'original va avec quel mot de la traduction, et de comprendre la structure du texte et de l'apprécier, même si je ne pourrais pas le comprendre sans aide. Je procède en utilisant en parallèle la méthode Assimil (j'en ai déjà parlé) pour assouplir mes neurones à la musique de la langue et tirer le meilleur parti de ma mémoire principalement auditive, et d'autre part des grammaires ou textes linguistiques pour satisfaire ma curiosité.

Bref. On m'invite pour deux jours aux Pays-Bas (à Leiden), pour évoquer un travail mathématique. Je n'aurai sans doute pas l'occasion d'articuler un mot de néerlandais (sauf peut-être au début de mon exposé pour remercier les organisateurs), mais peu importe : j'ai acheté l'Assimil néerlandais, et j'en suis actuellement à la 13e leçon[#3].

Forcément, si je connais déjà l'anglais et l'allemand, le néerlandais (que certains ont décrit comme la langue que des marins allemands et anglais saouls se sont mis à parler ensemble après un trop long temps passé en mer) devrait être plus facile que, oh, disons, l'arabe. D'autant plus qu'à peu près tous les produits alimentaires vendus en France ont un double étiquetage en français et en flamand pour pouvoir être vendus en Belgique, et que je suis du genre qui lit ce genre de choses. Toujours est-il que, pour ce qui est du néerlandais écrit, je comprends spontanément des choses très faciles, comme l'extrait suivant de la page d'accueil de nl.wikipedia.org aujourd'hui :

18 mei – Emmelie de Forest wint namens Denemarken het 58e Eurovisiesongfestival met het nummer Only Teardrops. Nederland eindigt negende met Anouk, België is twaalfde met Roberto Bellarosa.

18 mei – De Franse president François Hollande ondertekent de wet op het homohuwelijk. Mensen van hetzelfde geslacht kunnen in Frankrijk vanaf eind mei met elkaar trouwen.

[Traduction littérale : 18 mai — Emmelie de Forest gagne au nom du Danemark le 58e festival de chanson de l'Eurovision avec le numéro Only Teardrops. Les Pays-Bas finissent neuvièmes avec Anouk, la Belgique est douzième avec Roberto Bellarosa. | 18 mai — Le président français François Hollande signe la loi sur le mariage homo. Les personnes de même sexe peuvent se marier ensemble en France à partir de fin mai.]

Le deuxième paragraphe serait un peu difficile si je ne savais pas de quoi il parlait, parce que le mot wet (qui s'avère signifier loi) n'est pas transparent pour le germanophone ou pour l'anglophone (si quelqu'un peut m'en donner l'étymologie, d'ailleurs, je suis preneur), pas plus que la parenté entre huwelijk (le mariage) et l'allemand Ehe ; mais le reste est assez évident quand on connaît l'allemand. (À ce propos, pour ceux qui lisent l'allemand, je renvoie à ce document qui est très intéressant. Et en moins sérieux, pour ceux qui comprennent l'allemand parlé, ce comique raconte de façon amusante l'effet que fait aux allemands l'accent néerlandais.)

Il n'y a pas que le vocabulaire néerlandais qui est parallèle à l'allemand : les structures grammaticales sont aussi très proches (l'emploi de nombreuses prépositions, les verbes à particules séparables ou inséparables, la formation des passés et participes, la place des verbes dans les principales et subordonnées, la négation par nicht/kein en allemand et niet/geen en néerlandais, etc.). Cela aide énormément, et il est assez clair que le statut du néerlandais comme une langue à part plutôt que comme une variante du bas-allemand est surtout une question de convention. Globalement, le néerlandais a l'air un peu plus facile (il a fusionné deux des genres de l'allemand en un genre commun[#4] et il a à peu près supprimé les cas), sauf peut-être pour ce qui est de sa prononciation ou de son orthographe, qui ont l'air moins systématiques[#5].

Mais qui dit proximité dit aussi risque de confusion, soit qu'il y ait de faux amis (ou des différences subtiles de sens), soit qu'on ait tendance à transposer spontanément un mot sans qu'il existe de l'autre côté, soit, encore qu'on recopie bêtement le mot en oubliant que la phonétique/grammaire n'est pas la même. Pour ce qui est des faux amis, sans même parler de wie qui veut dire qui en néerlandais alors que le mot allemand identique signifie comment, j'ai déjà remarqué par exemple qu'en néerlandais jawel veut dire si (c'est-à-dire oui-en-réponse-à-une-question-négative) alors qu'en allemand jawohl est simplement emphatique ; klaar en néerlandais signifie prêt, fini, alors qu'en allemand klar signifie clair ; even en néerlandais signifie brièvement alors que eben en allemand signifie il y a un instant ; et la limite entre les verbes néerlandais mogen (avoir la permission / aimer) et durven (oser) est différente de celle entre les verbes allemands mögen (se pouvoir / aimer) et dürfen (avoir la permission / oser). J'aimerais trouver une liste de faux amis courants, ça m'aiderait beaucoup.

Ceci dit, en fait, au niveau complètement débutant où j'en suis, ce qui me perturbe plus, c'est que mon cerveau avait déjà créé une petite case pour une langue germanique que je connais un tout petit peu, qui n'est pas l'allemand, qui a deux genres grammaticaux (un neutre plus ou moins associé à la lettre ‘t’ et un non-neutre), et dont la prononciation est plus irrégulière que l'allemand, mais où notamment la lettre ‘u’ se prononce souvent à peu près [ʉ], et c'est le suédois. Entre autres, j'ai régulièrement envie d'utiliser le pronom suédois de la seconde presonne du singulier du (qui s'écrit pareil qu'en allemand, mais qui se prononce plutôt /dʉː/, à peu près comme le même mot se lirait en néerlandais), alors qu'en néerlandais c'est je[#6].

[#] Je ne suis jamais allé au Japon, mais je n'ai pas dit que je ne cherchais à apprendre un minimum que des langues des pays où je mets les pieds.

[#2] Quand j'apprenais l'allemand au lycée, je faisais des efforts très réduits pour le vocabulaire, si bien que j'ai toujours une capacité d'expression assez pourrie, par contre je prenais un plaisir infini à enchaîner les propositions et les constructions alambiquées (quoi, vous avez remarqué que j'aime faire des phrases longues et lourdes ?) et à demander à mes professeurs dans quel ordre il faut mettre les mots à la fin de Leute, denen hätte geholfen werden sollen (=Leute, denen man hätte helfen sollen). Et ce n'est rien à côté de ce que mes profs de latin ont dû souffrir avec mes questions. (Par contre, mes profs de russe, moins, parce que le russe se prête moins aux enculages de mouches grammaticales : la réponse est presque toujours c'est comme ça, ce n'est pas logique, et c'est tout.)

[#3] Sur 100 (je crois que c'est une constante de la méthode Assimil que d'avoir 100 leçons) : on peut donc mesurer son progrès comme un pourcentage vers un hypothétique niveau j'ai-tout-fini (où ils vous encouragent à recommencer à zéro en cherchant à retenir plus activement), qui doit correspondre déjà à un niveau de maîtrise non ridicule pour la plupart des langues. Mais je ne compte pas aller jusque là pour le néerlandais. Je me suis arrêté à 13% pour le suédois, 13% aussi pour le japonais, quelque chose du même genre pour le hongrois, et 42% pour l'arabe (ce qui, soit dit en passant, veut dire que je parle considérablement mieux suédois qu'arabe, évidemment…).

[#4] Le genre commun voulant donc dire masculin-ou-féminin, par opposition au neutre. Mais comme un de mes amis me l'a fait remarquer, le terme évidemment correct pour désigner masculin-ou-féminin, le non-neutre, dans les langues qui ont cette distinction, ce devrait être le utre, puisque neutre, étymologiquement, c'est ne+utre, c'est-à-dire ni l'un ni l'autre (du latin uter, l'un ou l'autre).

[#5] Et moins standardisée, pour ce qui est de la prononciation : autant il existe un standard à peu près clair de la prononciation de l'allemand (sans exclure de nombreuses variations géographiques, bien sûr, mais une sorte d'équivalent de la Received Pronunciation anglaise), autant le néerlandais a l'air de ne pas admettre de prééminence d'un accent sur les autres. Le ‘r’, par exemple, peut se prononcer « à l'espagnole » (comme une battue alvéolaire), « à la française » (comme une uvulaire) ou « à l'anglaise » (comme une spirante alvéolaire), et ce n'est pas la seule lettre qui varie ainsi (le ‘g’/‘ch’, le ‘w’, le ‘v’ et le ‘z’ admettent aussi des variations géographiques) ; les règles d'assimilation ont aussi l'air de varier d'un endroit à l'autre (j'entends dire que certains néerlandophones ne font même pas de distinction phonémique entre sourdes et sonores). D'ailleurs, même la grammaire semble moins « standardisée » que celle de l'allemand.

[#6] Ccomme l'anglais you, dont le nominatif correct est d'ailleurs ye, le néerlandais a repris un pronom pluriel comme pronom singulier pour la seconde personne du pluriel ; sauf que le néerlandais a aussi un pronom de politesse u, et il a aussi un pronom pluriel, jullie, construit sur le modèle de y'all ou you guys utilisé dans cette fonction dans certains coins des États-Unis ; comme en plus le pronom singulier d'origine, gij, l'analogue du thou anglais, a l'air de continuer à exister dans certaines régions néerlandophones, tout ça fait beaucoup de pronoms de la seconde personne pour une seule langue !


Les 18 voyelles cardinales

Je me passionne pour la phonétique un peu de la même manière que pour la typographie : apprendre à reconnaître précisément les sons que l'on entend ou que l'on prononce soi-même, c'est un peu comme apprendre à remarquer les caractéristiques des caractères écrits que l'on croise, c'est apprendre à développer son sens de l'observation sur quelque chose qu'on a facilement tendance à ignorer. (Cela peut devenir obsédant, d'ailleurs : comme Donald Knuth le faisait remarquer, I can't go to a restaurant and order food because I keep looking at the fonts on the menu — et je ne peux plus m'empêcher de faire toutes sortes d'observations sur la manière dont les gens parlent.) Et aussi bien pour apprendre à reconnaître les polices de caractères que pour identifier ou reproduire les propriétés phonétiques des sons du langage, il faut « faire ses gammes », c'est-à-dire, s'efforcer de se familiariser avec des points de référence standards : en typographie, les polices les plus courantes (Times, Helvetica, Palatino, Futura, Univers, Optima, etc.), et en phonétique, les sons de l'alphabet phonétique. Ici je vais parler un peu de 18 sons de référence appelés les voyelles cardinales.

La phonétique étant une discipline tout en nuances, ce n'est pas aussi facile qu'on pourrait le croire de définir sans ambiguïté ce qu'est une voyelle et une consonne[#]. Il y a tout de même une distinction concrète entre les unes et les autres, c'est que les consonnes sont assez bien séparées les unes des autres (il y a un ensemble assez discret de possibilités) tandis que les voyelles forment un espace continu. Toujours est-il que je voudrais parler ici un peu des voyelles.

Dimensions de l'espace des voyelles

La première question évidente est de déterminer la dimension de cet espace des voyelles, c'est-à-dire le nombre de caractéristiques indépendantes qu'elles peuvent avoir, un peu comme on détermine que l'espace des couleurs est de dimension 3. La réponse pour les voyelles est en plus de la longueur et de la hauteur, encore 2 ou 3 dimensions, voire un petit peu plus — l'incertitude vient du fait que certaines dimensions sont plus « étroites » en ce sens qu'elles permettent moins de variation, ou encore ne seront pas vraiment comptées dans la caractéristique de la voyelle.

Les deux dimensions complètement évidentes, et que j'écarte immédiatement, ce sont la longueur de la voyelle (ou quantité de celle-ci, c'est-à-dire le temps qu'elle dure) et sa hauteur (c'est-à-dire la note sur laquelle elle est prononcée) : ces paramètres sont importantes dans certaines langues qui peuvent contraster voyelles brèves et longues, et/ou donner un sens aux tons (hauteurs ou variations de hauteur). Ce qui reste quand on abstrait ses deux dimensions, donc ce qui m'intéresse principalement, s'appelle la qualité de la voyelle.

i y e ø ɛ œ a ɶ ɑ ɒ ʌ ɔ ɤ o ɯ u ɨ ʉ

Les deux dimensions essentielles de la qualité des voyelles sont l'ouverture et l'avancement de celles-ci. Pour se faire une première idée de ces dimensions, disons que l'ouverture de la voyelle est ce qui distingue les mots français fi, fée et fait (à supposer que ces deux derniers soient distincts) ou encore fou et faux, voire folle si on omet la consonne finale de ce dernier : dans chacune de ces deux séries (fi/fée/fait d'une part et fou/faux/fo[lle] de l'autre), l'ouverture est croissante, c'est-à-dire qu'on a successivement une voyelle fermée, mi-fermée et mi-ouverte ; pour ce qui est de l'avancement, on contrastera fut et fou ou feu et faux ou encore [coi]ffeu[r] et fo[lle] : dans chacune de ces séries, on passe d'une voyelle antérieure/centralisée à une voyelle postérieure.

Sur le diagramme standard servant à positionner les voyelles, et que votre navigateur doit afficher à droite s'il supporte le SVG, et qu'on trouve sur Wikipédia sinon, l'ouverture est figurée verticalement (la ligne horizontale du haut correspondant aux voyelles fermées, la deuxième aux mi-fermées, la troisième aux mi-ouvertes, la quatrième aux ouvertes), et l'avancement est figuré horizontalement, avec à gauche les voyelles antérieures et à droite les postérieures.


Sur les noms et la perception des couleurs

On sait bien que je suis fasciné par la perception des couleurs, au moins au niveau physique. Mais il y a un autre aspect de la perception des couleurs, c'est l'aspect linguistique, et ses liens avec les différentes formes de l'hypothèse de Sapir-Whorf (i.e., à quel point notre façon de désigner les choses influence notre façon de les penser ou de les percevoir — ce qui varie entre complètement évident et complètement faux selon ce qu'on comprend exactement par là).

Une observation classique, qui a été explicitement formulée par William Gladstone (le premier ministre de la reine Victoria, qui était aussi un passionné d'Homère) est qu'Homère décrit les couleurs d'une manière qui nous semble extrêmement bizarre : il décrit la mer, par exemple, comme ayant la couleur du vin (οἶνοψ : par exemple Iliade 23:143, Achille regarde ἐπὶ οἴνοπα πόντον, sur la mer sombre comme le vin), et en gros il n'utilise pas de mot pour bleu (il y a deux occurrences à quelques vers d'intervalle dont la première est Iliade 11:24, μέλανος κυάνοιο, de bleu sombre, parlant de la tenue de bataille d'Agamemnon, et ce n'est même pas sûr s'il parle vraiment d'une couleur ou bien d'une matière ; de même, Odyssée 7:87, θριγκὸς κυάνοιο, une corniche de pierre bleue). Gladstone en avait conclu qu'Homère, et peut-être les anciens Grecs en général, étaient daltoniens, ou en tout cas ne percevaient pas les couleurs comme nous, et que cette capacité avait évolué avec le temps. (C'est amusant, d'ailleurs, quand on songe que la légende veut qu'Homère ait été aveugle.) Mais du point de vue biologique, on peut dire avec certitude que c'est faux : si je ne m'abuse, on sait que l'évolution de la perception des couleurs, et notamment les dernières mutations pertinentes de la photopsine à l'échelle de l'espèce humaine, sont beaucoup plus anciennes que ça.

Là-dessus est né un certain débat sur la manière dont les langues nomment les couleurs, avec notamment cette thèse selon laquelle l'ordre est essentiellement toujours le même : toutes les langues ont des mots pour le noir et le blanc, puis, s'il n'y a qu'une couleur désignée c'est le rouge, puis viennent le vert et le jaune (dans un ordre ou un autre), et le bleu ne vient qu'ensuite. Je suis tombé sur un podcast qui évoque ces questions (même si leur façon de raconter est, je trouve, assez insupportable) : ils font remarquer, ce qui n'est pas idiot, qu'il n'y a pas grand-chose dans la nature qui soit vraiment bleu — à part le ciel, mais, finalement, le ciel c'est surtout du vide, ce n'est pas un objet, ce n'est pas forcément quelque chose qu'on a idée de décrire ou de nommer par une couleur ; et que le bleu est aussi une couleur difficile à synthétiser.

Pour défendre la version sapir-whorfienne des choses, on a invoqué les Himbas de Namibie, dont les mots pour désigner les couleurs recoupent assez mal les nôtres. Il y a eu un petit documentaire de la BBC sur la perception des couleurs (que je n'arrive pas à voir sur leur site, et dont la version sur YouTube a été supprimée à leur demande, donc je ne peux pas vérifier que mon souvenir est correct) où je crois qu'on voit des Himbas à qui on demande quel carré de couleur parmi cet ensemble de douze est différent des onze autres, où un carré est bleu et les onze autres sont verts (de la même teinte exactement) et ils ont des difficultés à répondre ; puis on leur repose la même question avec douze carrés verts dont un est légèrement différent d'une manière qui nous semble presque imperceptible et cette fois-ci ils répondent sans aucune difficulté alors que nous aurions bien du mal. Ou du moins, c'est ce que le film veut nous laisser croire : les choses sont un peu embrouillées par le fait qu'il s'agit d'un film, donc d'une caméra qui a filmé un écran d'ordinateur (sur lequel les carrés étaient projetés) et dont la sortie a ensuite été comprimée, et il n'est pas acquis du tout que ces techniques de reproduction+compression ne préjugent pas du résultat en déformant les couleurs. Or je ne sais pas quelles couleurs exactement ont été montrées aux Himbas. Si je crois cet article, d'où il ressort que les choses sont plus compliquées que ça et dépendent aussi de la région du champ visuel utilisée, les couleurs étaient peut-être les suivantes (modulo les variations de rendu des moniteurs) :

[Douze carrés de couleur dont un différent]

D'un autre côté, j'ai un peu du mal à croire que le fait qu'un carré soit ce que nous appellerions bleu et les autres verts joue un rôle très important, parce que si je fais la même expérience avec des carrés que nous qualifierions tous de verts (mais avec une séparation chromatique qui est tout à fait comparable, quelle que soit la définition exacte qu'on prend),

[Douze carrés de couleur dont un différent]

je ne sais pas ce que les Himbas en penseraient, mais moi je ne trouve ça ni plus facile ni plus dur que celui d'au-dessus. (Si votre navigateur supporte l'API JavaScript canvas, vous pouvez changer aléatoirement le carré de couleur différente en cliquant sur l'image.) Du coup je suis un peu sceptique quant à toute cette histoire.

D'ailleurs, il y a un type de sensations pour lesquels je crois avoir une bonne faculté de distinction, ce sont les odeurs, et pourtant je n'ai généralement aucun mot pour les désigner : du coup je suis peu convaincu par les arguments du style on ne sait percevoir que ce qu'on ne sait désigner.

Beaucoup de langues ont des mots bien différents pour désigner le bleu clair et le bleu foncé : comparez d'une part ce que renvoie Google images pour le russe синий ou l'idéogramme , et d'autre part ce qu'il renvoie pour le russe голубой ou les idéogrammes 水色 [couleur de l'eau]. Je pense que même quelqu'un qui ne connaît aucune de ces langues n'aura pas la moindre difficulté à reconnaître que les teintes sont globalement différentes entre ces deux paires : il est donc évidemment fumeux de prétendre que n'avoir qu'un seul mot pour bleu nous empêche de voir la différence.

Bien sûr, le français a quantité de mots pour bleu : on peut appeller turquoise ou cyan ou aigue-marine ou céruléen telle ou telle variante plus précise de la couleur, et évidemment beaucoup de langues ont une possibilité de raffiner ainsi à l'infini. (Quand j'étais en lycée, j'utilisais des stylos plumes de deux couleurs différentes : bleu effaçable et bleu des mers du sud.) Mais la question qui se pose sans doute plutôt est de savoir si une langue accepte ou non de désigner deux couleurs sous le même nom : par exemple, en français, si je montre un objet bleu et que j'insiste pour l'appeler vert on va me dire que je me trompe, sauf peut-être si cet objet est d'un turquoise vraiment à la limite entre les deux. (Est-ce que si je montre à un russe un objet синий et que je le qualifie de голубой il va tiquer autant que si je montre à un français un objet bleu en disant qu'il est vert ?)

Il y a bien longtemps j'avais lancé une expérience où je demandais aux internautes francophones qui passaient par là de nommer par le premier nom, simple, qui vous semble naturel (par exemple rose, beige, gris…) une couleur tirée au hasard dans l'espace sRGB linéaire. Voici les nuages de points — projetés dans un triangle sRGB — pour certaines des couleurs les plus fréquentes (le nombre entre parenthèses est le nombre d'indentifications de cette couleur) :

Vert (1155) Bleu (1011) Rose (729) Violet (475) Jaune (300) Gris (222) Mauve (207) Orange (176) Beige (132) Rouge (85)
[Couleurs nommées "vert"] [Couleurs nommées "bleu"] [Couleurs nommées "rose"] [Couleurs nommées "violet"] [Couleurs nommées "jaune"] [Couleurs nommées "gris"] [Couleurs nommées "mauve"] [Couleurs nommées "orange"] [Couleurs nommées "beige"] [Couleurs nommées "rouge"]

Les couleurs figurées sur ces dessins eux-mêmes sont là pour aider à visualiser, mais elles sont uniquement schématiques, c'est juste un rendu approximatif que j'ai choisi pour le nom en question : ces dessins pourraient aussi bien être en noir et blanc, l'information pertinente c'est la région du triangle où les points s'accumulent.

(Des douze couleurs les plus souvent nommées j'ai seulement omis le blanc, qui avait fait 113 réponses, et le marron qui en avait fait 104, parce que ces couleurs me semblent dépendre trop fortement de la luminosité pour être intéressantes dans le type de dessin que je fais. Les termes suivants étaient : turquoise, cyan, kaki, brun, saumon et magenta, avec respectivement 53, 36, 30, 24, 21 et 15 identifications.)

Une des choses qui m'avaient frappé est à quel point on nomme rarement une couleur comme rouge : dès qu'elle vire un tout petit peu vers le vert on la qualifie d'orange, et dès qu'elle vire un tout petit peu vers le bleu on la qualifie de rose. Le rouge est tellement précis qu'il en devient évanescent. A contrario, il n'est pas surprenant que beaucoup de langues divisent en plusieurs régions ce que le français appelle vert ou bleu, et qui sont de vrais fourre-tout. Mais du coup, c'est peut-être encore plus surprenant que le rouge soit la première couleur à émerger dans les langues anciennes.

Bref, tout cela reste assez mystérieux, et il ne me semble pas qu'on ait de réponse complètement satisfaisante à la question générale de comment la langue influence notre perception des couleurs, ni à la question particulière de pourquoi Homère évoque si peu la couleur bleue.


Petit jeu chinois

[Théière avec caractères chinois]Hier j'ai mangé avec mes parents (mais sans mon poussinet) au restaurant chinois La Merveille des Ulis, autrement dit 旺德酒楼 (c'est ici). Ce n'est pas trop mauvais, d'ailleurs, dans le genre buffet à volonté assez varié.

Le petit jeu auquel je me suis livré, donc, c'est d'arriver à reconnaître les caractères du nom chinois du restaurant, à partir de la photographie que j'ai prise de la théière, sachant que je ne parle pas un mot de chinois. La difficulté est, notamment, d'arriver à trouver la clé des caractères et de compter correctement les traits, alors que c'est complètement chinois pour moi, mais c'est rigolo de se livrer à ce petit jeu de piste. Où il y a des pièges : le caractère (jiǔ, la liqueur), qui apparaît ici, est considéré avoir pour clé son élément de droite (le vin), alors que le caractère (sǎ, arroser), qui lui ressemble à un trait près a pour clé l'élément de gauche (l'eau) ; remarquez que la confusion entre les deux doit frapper un certain nombre de Chinois parce que la recherche dans Google de 酒楼 (les deux derniers caractères de la théière), qui est manifestement une des façons de désigner un restaurant, donne encore un nombre assez élevé de réponses si on remplace le premier caractère par celui qui lui ressemble beaucoup.

Enfin bref, ceci me permet de savoir que le nom de mon restaurant est quelque chose comme wonder restaurant : les deux premiers caractères (wàng, qui désigne la prospérité, et dé, qui désigne la vertu mais sert apparemment surtout dans des transcriptions phonétiques) forment une transcription phonétique du mot anglais wonder, la merveille. C'est un peu ironique qu'un mot (merveille) utilisé parce que dans la tête des Français il fait chinois (et c'est vrai qu'il doit y avoir pas mal de restaurants chinois qui ont ce mot dans le nom, au moins dans sa version française), soit rendu en chinois comme la transcription d'un mot anglais ! (Il y a pourtant un bon mot chinois pour dire ça, si j'en crois les dictionnaires : 奇迹, et la magie de Google images permet de savoir que ce dernier évoque des choses un peu différentes de le wonder transcrit, et j'aime l'apparition du durion pour celui-ci.)


Le français que je parle

Sans aller jusqu'à dire que j'ai un dialecte vraiment original du français, la langue que je parle accumule un certain nombre d'idiomatismes, de néologismes (l'emploi du mot idiomatisme en étant lui-même un), de glissements de sens, d'orthographes singulières, de marques d'activisme typographique, bref, de petits traits personnels dont j'ai parfois — mais pas toujours — conscience. Je ne parle pas du « français++ » qui est une blague récurrente avec des amis que j'utilise pour désigner toutes sortes de modifications que je serais tenté de faire à la langue française pour la rendre plus logique ou plus agréable à mes yeux, ou simplement pour m'amuser, comme le fait que j'y ajouteraie [sic !] un subjonctif futur. Je parle de la langue que j'emploie vraiment, ou du moins, de certaines des formes de langue que j'emploie, parce que je ne m'exprime pas de la même manière dans un mail à un ami, dans une entrée de ce blog, à l'oral, etc. Je ne prétends pas être singulier (je veux dire, je ne prétends pas que mon français soit singulièrement plus original que celui d'un autre), mais j'aime me livrer à une petite introspection linguistique.

Certains de ces traits sont à peu près involontaires : je fais évidemment des fautes d'orthographe (sur l'emploi de ce mot, voir ici : une faute est précisément une bizarrerie dont je n'ai pas conscience et que je corrigerais si je m'en rendais compte). Ou j'abuse de certains mots et certaines expressions (parfois on me les signale, et parfois je décide de faire un effort pour moins les employer) : mon poussinet s'énerve, par exemple, de la fréquence avec laquelle je lui dis éventuellement à des questions qui voudraient qu'on répondît oui ou non (le éventuellement ayant pour sens quelque chose comme pourquoi pas, je n'y suis pas foncièrement opposé si tu veux faire ça, mais je ne suis pas enthousiaste non plus, généralement accompagné de j'aimerais bien ne pas prendre cette décision immédiatement). Je pense que j'utilise le mot certes plus fréquemment que la moyenne, et je signale cet exemple parce que je sais précisément d'où ça me vient, c'était mon professeur d'histoire-géographique en classe de 3e qui l'affectionnait.

Il y a des mots que j'emploie à dessein et qui sont jugés douteux, incertains, ou d'orthographe incorrecte (ou juste vieillotte) par les dictionnaires : soit parce que je trouve le terme plus précis, plus heureux, plus correct étymologiquement, plus compréhensible, plus juste, ou pour n'importe quelle raison plus agréable. Ou parfois sans raison, mais en étant conscient qu'il s'agit d'une petite bizarrerie personnelle. J'écris québecois et pas québécois, referendum et non référendum, événement et jamais évènement, chausse-trape plutôt que chausse-trappe, parfois mais pas toujours réglement pour règlement ; je régularise le verbe arguer en arguër et je n'aurais aucun scrupule à écrire que nous arguöns ou même que nous avons arguë́ (j'avoue que là ça s'approche un peu du français++). J'écris autant pour moi juste pour énerver les gens qui insistent obstinément sur le au temps pour moi. Parmi les néologismes ou quasi-néologismes, j'ai déjà cité idiomatisme, décevamment (et toutes sortes d'autres adverbes du même modèle dont je refuse d'admettre qu'ils n'existent pas), confuser (j'assume complètement les anglicismes qui corrigent une lacune du français). Dans les bizarreries grammaticales, j'écris par exemple vus les résultats déjà obtenus en accordant ce participe passé que la plupart des grammairiens recommandent de garder invariable. Syntaxiquement, je n'ai aucun problème à faire une phrase comme il est plus vraisemblable qu'il ait été surpris que qu'il soit véritablement choqué en préservant le double que que la logique demande mais que des grammairiens, me semble-t-il, recommandent de simplifier en un seul. Ah, et tant que j'y suis, je prononce [bɔnsaj] et pas [bɔ̃zaj] pour les arbres miniatures de tradition chinoise et japonaise : ce n'est pas la prononciation du ‘n’ que je souligne mais la surdité du ‘s’, parce que, que je sache, le mot bonsoir ne se prononce pas comme s'il s'écrivait bonzoir et il n'y a aucune raison de faire une entorse à la fois à la langue française et à la langue japonaise en inventant un ‘z’ dans bonsaï ; idem dans Israël, d'ailleurs, qui n'est pas Izraël.

Mais le plus grand ensemble de bizarreries de ma façon de parler vient incontestablement du fait que j'importe beaucoup de vocabulaire soit matheux soit geek (i.e., hacker Unix) dans le langage courant. Souvent sans y penser : j'ai tellement l'habitude de m'adresser à des gens dont je suis sûr qu'ils comprendront que je ne prête plus attention au fait qu'il ne s'agit pas de français « standard ». Je peux dire de deux idées qu'elles sont isomorphes pour signifier qu'elles sont équivalentes dans leur structure ; je peux parler de pinguer (pinger ?) quelqu'un au sens de demander un signe de vie.

Parfois je ne sais vraiment pas si c'est compréhensible. Par exemple, il est tout à fait courant, pour moi, d'utiliser le mot modulo comme une préposition : son sens est quelque chose comme en ignorant, à ceci près (par exemple : modulo les incertitudes sur la météo) ou parfois, plus abusivement, sauf (comme dans modulo erreur de ma part). Je n'ai aucune idée, en vérité, de l'effet que produit l'audition de ce mot sur un Français n'ayant pas eu de contact particulier avec des matheux.

Et je passe sur des mots comme pipoter, crackpot, ou, en fait, geek (celui-là semble devenu mainstream en français, mais plutôt avec le sens de gamer, ce qui, du coup, est problématique).

Bref, si vous ne comprenez rien à ce que je dis, c'est certainement ma faute ! ☺


Idiomatismes, régressivité, et autres mots peut-être pas français

When I use a word, Humpty Dumpty said in rather a scornful tone, it means just what I choose it to mean—neither more nor less.

The question is, said Alice, whether you can make words mean so many different things.

The question is, said Humpty Dumpty, which is to be master—that's all.

(Lewis Carroll, Through the Looking-Glass, chap. VI.)

C'est une discussion dans laquelle je me retrouve souvent engagé, et qui recoupe des sujets sur lesquels j'ai déjà ranté : en l'occurrence elle est partie de la question de savoir s'il vaut mieux utiliser idiotisme ou idiomatisme pour désigner une forme, construction ou locution propre à une langue ou à un idiome. Je défendais idiomatisme pour plusieurs raisons : c'est le mot le plus logiquement construit pour correspondre à l'adjectif idiomatique (et faire apparaître la racine d'idiome), et, de fait, c'est ce qu'emploient spontanément la plupart des gens qui ignorent que les grammairiens recommandent idiotisme ; de plus, idiomatisme fait parallèle à l'anglais idiomatism[#0], et loin d'être quelque chose à éviter, les anglicismes sont quelque chose de souhaitable lorsqu'ils ne se font pas à l'encontre du génie de la langue[#] mais contribuent à internationaliser le vocabulaire technique[#2] ; et a contrario, idiotisme a un deuxième sens, qui est celui du mot anglais correspondant, et qu'on lui comprend spontanément quand on ne connaît pas le mot, ce qui peut causer des confusions indésirables (j'ai dit cela par idiotisme est tout de même assez confusant). Mon interlocuteur défendait idiotisme pour deux raisons : il est plus fréquent, et surtout, idiomatisme ne serait pas un mot français, ou serait une faute, preuve étant qu'il ne figure dans aucun dictionnaire (sauf Wiktionary, qui ne compte pas). L'argument de la fréquence est un argument pertinent, je ne le nie pas, je ne vais pas m'étendre à ce sujet, disons juste que le rapport de fréquence ne semble pas suffisamment écrasant pour qu'il suffise à écarter complètement idiomatisme. C'est surtout l'argument des dictionnaires que je veux rejeter avec beaucoup de force.

Je pourrais formuler ma réplique de façon succincte : idiomatisme n'est pas dans les dictionnaires… et alors ?

Je ne sais pas ce que ça veut dire qu'un mot ne soit pas un mot français. Il y a des choses pour lesquelles j'en suis sûr, évidemment, par exemple le mot zycofrène, parce que non seulement il ne figure dans aucun dictionnaire, mais il n'apparaît pas du tout sur le Web au moment où j'écris, on ne voit pas du tout quel sens il aurait, il n'est pas formé de façon logique ou régulière, bref, c'est juste une suite de lettres qui n'a rien d'un mot français à part d'être correctement prononçable. Mais à partir du moment où un mot est effectivement utilisé par des gens qui croient parler français, que sa construction est logique et qu'on en comprend aisément le sens, je ne sais pas quel sens ça a de dire qu'il n'est pas français. Je peux prendre ça pour une définition (n'est pas français un mot qui ne figure pas dans tel ensemble de dictionnaires), mais dans ce cas la question serait : en quoi cette définition est-elle utile ou pertinente ? ou en quoi cela me servirait-il de me restreindre au français tel que défini par cette définition extrêmement étroite (et qui m'interdirait à peu près tout vocabulaire technique). La seule raison pour laquelle j'utilise, moi, essentiellement des mots qui figurent dans le petit Robert, c'est pour pouvoir être compris de mon lecteur ou interlocuteur sans lui demander des efforts importants ou sans lui causer de fatigue mentale — or je ne suis pas sûr qu'utiliser idiotisme au lieu d'idiomatisme aille dans ce sens. Pour moi, un dictionnaire n'est pas quelque chose de normatif ou prescriptif, il n'a pas plus le pouvoir de faire la langue qu'un manuel de biologie n'a le pouvoir de décider la façon dont les cellules se reproduisent.

Et surtout, s'en référer à l'autorité d'un dictionnaire revient à faire la même chose qu'un appel à une divinité pour évacuer un problème de morale : on passe complètement à côté de la question qui est, quel critère cette autorité doit-elle elle-même adopter pour faire ses choix ? Car la langue, indiscutablement, évolue dans le temps, et il faut bien admettre que des nouveaux mots apparaissent. Je ne sais pas comment fonctionnent les éditions Robert et Larousse pour choisir les mots qu'ils ajoutent chaque année à leur ouvrage. Plus exactement, je ne sais pas comment ils font pour (1) repérer les candidats à rentrer, et (2) choisir, parmi eux, lesquels entrent effectivement et lesquels sont laissés à la porte (au moins jusqu'à l'an prochain). Ces deux aspects me posent problème : le (1) parce que je me demande si c'est fait de façon bien scientifique, en dépouillant systématiquement des sources diverses (tels que : journaux, pages Web, Wikipédia, autres dictionnaires) pour repérer tout ce qui n'a pas été considéré, et le (2) parce que leurs critères ne semblent pas documentés de façon claire, on a l'impression qu'il y a beaucoup d'arbitraire (et de fait, Robert et Larousse ne semblent pas vraiment faire les mêmes choix). L'exclusion du mot idiomatisme s'est-elle faite au niveau (1) (parce que personne n'a remarqué que des gens utilisaient vraiment ce mot) ou au niveau (2) (le mot aurait été rejeté, et alors, pour quelle raison) ?

Mon contradicteur me dit qu'il n'y a pas de raison d'admettre le mot idiomatisme parce que le mot idiotisme existe déjà avec ce sens-là (surtout s'il est plus fréquent). C'est un argument qui est sensé, mais qui ne suffit pas. Pour le montrer, prenons l'exemple d'un autre mot : géologiste. Est-ce là un mot français ? Il semble être exactement dans la même situation qu'idiomatisme : c'est un synonyme construit de façon vaguement plus logique mais beaucoup moins usité qu'un autre mot de la même famille, en l'occurrence géologue, et il fait parallèle à un mot anglais (geologist) ; de plus, il ne figure ni dans le petit Robert ni dans le petit Larousse (du moins les éditions que j'ai sous la main, mais je doute que ça ait changé), et pas non plus dans le Trésor de la langue française (TLF) (apparemment si, il était caché sous géologue). Pas français, donc, géologiste ? Et pourtant, celui qui croit à l'autorité des dictionnaires est obligé de reconnaître que si, car le mot figure dans le Dictionnaire de la langue française d'Émile Littré. Et même à l'époque de son édition, il était moins fréquent que géologue puisque Littré écrit synonyme peu usité de géologue : il faut donc croire que cet éminent lexicographe a admis, malgré l'existence d'un mot tout aussi valable de la même famille avec le même sens et plus souvent utilisé, que géologiste pouvait être du bon français. Alors pourquoi pas idiomatisme ?

Bref, il est de ces mots dont le fait qu'ils manquent à un dictionnaire m'incite simplement à hausser les épaules et à dire et alors ? ça montre juste que le dictionnaire n'est pas exhaustif. Car lorsqu'un mot est construit de façon claire, que son sens ne fait aucun doute à la lecture, qu'il ne paraît pas ridicule ou choquant (je ne compte pas défendre la bravitude, par exemple), je ne vois aucune raison de me priver d'en faire tout l'usage que je voudrai. Par exemple, le mot régressivité ne figure, semble-t-il, dans aucun dictionnaire : et alors ? c'est un mot français parfaitement valable, c'est juste un oubli ou un manque de place, ou une décision infondée, s'il n'est pas listé dans les dictionnaires. Il paraît que furtivité était dans une situation semblable jusqu'à pas si longtemps : une décision officielle le propose comme traduction de l'anglais stealth, je ne sais pas si cette décision pensait créer le mot ou en réutiliser un, mais je suis fermement d'avis que ce n'est pas une invention. Le mot perturbant ne figure pas non plus dans le TLF (je veux dire, en tant qu'adjectif : c'est bien sûr le participe présent du verbe perturber, mais la question est de savoir si une idée perturbante doit être approuvé), et n'a apparemment été admis par le petit Larousse qu'en 2009, et probablement assez récemment aussi pour le petit Robert : je refuse de considérer qu'il s'agit d'un néologisme (comme blog, par exemple, qui est indiscutablement un mot nouveau), il s'agit plutôt d'une construction qui n'a été utilisée que très timidement et qui s'est répandue, mais le mot a, à mon sens, toujours été français, même si personne ne l'utilisait, parce que sa construction est évidente et naturelle. Il en va ainsi d'idiomatisme, de régressivité ou de l'adverbe décevamment (qui n'a aucune raison de ne pas exister, et qui existe donc, même s'il s'avère que personne ne l'utilise).

Les choses ne sont jamais parfaitement claires en matière de langue. Évidemment j'ai conscience, quand j'utilise le verbe confuser ou l'adjectif confusant, que je contribue ainsi à faire évoluer la langue : c'est voulu, et je ne compte pas me modérer, mais je reconnais que c'est un tout petit peu exagérer que de dire qu'il s'agit de mots français tout à fait ordinaires — il y a encore une aura, non de néologitude, mais d'inhabitualité, autour de ces mots, et je ne les utiliserais pas dans un contexte de grande solennité. Ce n'est pas tout à fait pareil que quand je propose hétéroïne (pour désigner une femme hétérosexuelle, c'est-à-dire le féminin de l'abréviation un hétéro), qui, lui, est expressément construit et voulu comme un néologisme (plus ou moins humoristique). Est-ce que hétéroïne est français ? Est-ce que confuser est français ? Et qu'en est-il de néologitude ou inhabitualité ? Je ne crois pas que répondre à ces questions ait plus d'intérêt que de discuter du vocatif d'ego ou du sexe des anges. La chose qui importe est doit-on utiliser ces mots ?, et je vois assez peu de contextes où on aurait la moindre raison d'éviter les mots confuser, idiomatisme, régressivité, décevamment, etc. (J'en vois un peu plus pour néologitude ou inhabitualité et hétéroïne.)

En fait, la principale raison de les éviter est qu'on risque de tomber sur des pédants qui vont se faire un plaisir de vous regarder de haut en vous signalant qu'on ne dit pas idiomatisme, on dit idiotisme (sous-entendu : je maîtrise mieux le français que vous, pauvre idiot(e) capable de parler de bravitude). Si vous expliquez après cela que, non, non, c'est voulu, vous pensez vraiment qu'idiomatisme est meilleur, vous passez pour de mauvaise foi (sous-entendu : je suis pris à faire une faute de français, et je défends que ce n'est pas une faute en me raccrochant aux branches). La solution, dans ce cas-là, c'est d'écrire à l'avance une entrée dans votre blog expliquant votre choix, attendre que archive.org la garde en mémoire, et pouvoir dire ah non, déjà en novembre 2011, preuve à l'appui, j'ai montré que je connaissais bien le mot idiotisme mais que je lui préférais quand même idiomatisme. Dont acte. Bref, retenez l'adresse de cette entrée pour pouvoir la ressortir à tous les imbéciles qui vous reprocheront les différents mots zycofrènes que j'ai cités.

[#0] (Ajout ) En fait, il semble que j'aie tort de penser que c'est par anglicisme qu'on fabrique idiomatisme : le mot anglais idiomatism est dans une situation tout à fait analogue au mot français ; sauf que comme les lexicographes d'Oxford sont plus facilement prêts à admettre des choses rares, il figure dans le OED — mais il figure avec des indications comme quoi il est obsolete et rare, et en fait c'est même un hapax (la seule occurrence trouvée est un texte de l'académie de je-ne-sais-pas-quoi de 1771).

[#] Une loi jusqu'à présent infaillible que j'ai constatée est que les gens qui prétendent déceler des anglicismes pour les critiquer montrent, en fait, leur ignorance du français, et on peut généralement trouver des exemples de bons auteurs français ayant commis ce qu'ils croient signaler comme une faute. (Parfois les gens ont des idées vraiment bizarre : quelqu'un m'avait prétendu, par exemple, que l'usage du mot français futur pour désigner l'avenir est un anglicisme, le mot français correct étant, justement, avenir, le mot futur étant réservé, selon lui, au temps grammatical, et à l'adjectif éventuellement substantivé pour désigner le futur époux… je ne sais pas où il était allé chercher cette idée aussi sotte que grenue.) Même les anglicismes commis à dessein sont louables, tant qu'on a bien conscience de ce qu'on fait : le mot implémenter, par exemple, est calqué sur l'anglais to implement, et ceux qui proposent de le remplacer par implanter n'ont visiblement pas compris ce qu'il signifie. Je ne prétends cependant pas qu'il soit souhaitable d'adopter en français toutes les bizarries de l'anglais : il vaut mieux, par exemple, éviter d'utiliser réaliser pour dire se rendre compte, car c'est une bizarrerie de l'anglais que to realize ait ce sens assez illogique vue l'étymologie, donc je préfère ne pas le transposer en français. (Éclaircissement  : Mon but n'est pas de dire que les gens qui utilisent réaliser dans le sens de se rendre compte ont tort, ce serait vraiment le contraire de toute ma thèse que d'affirmer ça ; mon but est d'expliquer que ceci est un exemple de cas où moi, personnellement, je m'abstiens.)

[#2] Je pense par exemple à la terminologie mathématique : je trouve invraisemblablement stupide d'accepter l'idée que positif en français signifie positif ou zéro mais que positive en anglais signifie strictement positif. Pour moi, il ne fait aucun doute qu'il s'agit du même mot, et je trouve aberrant de donner à ce mot un sens qui dépend du hasard de la langue dans laquelle on s'exprime : dans ce cas précis, la solution est d'écrire systématiquement positif ou zéro (positive or zero) quand on veut parler de l'inégalité large, et strictement positif (strictly positive) quand on veut parler de l'inégalité stricte, et réserver le mot positif (positive) aux cas où la distinction n'a aucune importance.


De l'usage des temps grammaticaux

L'écriture de l'entrée précédente, en interlingua, et la lecture de quelques textes en interlingua avant et après, m'a conduit à m'interroger sur l'usage et le sens des temps grammaticaux entre les différentes langues, ou du moins entre les seules langues que je maîtrise assez parfaitement pour avoir un avis vraiment fondé sur un usage idiomatique, c'est-à-dire le français et l'anglais (qui sont d'ailleurs toutes les deux classées par l'interlingua comme des langues sources).

L'anglais a une riche moisson de temps grammaticaux (tellement riche que la nomenclature pose quelque problème), fondée sur un usage assez systématique des temps composés et surcomposés (il n'y a que deux temps simples, le présent et le prétérit), et qui d'ailleurs mélange des notions temporelles et des notions aspectuelles (pas que je sois vraiment persuadé que la distinction ait toujours un sens ou soit toujours pertinente) : he speaks (présent), he is speaking (présent progressif), he spoke (prétérit), he was speaking (prétérit progressif), he has spoken (parfait), he has been speaking (parfait progressif), he had spoken (plus-que-parfait), he had been speaking (plus-que-parfait progressif), he will speak (futur), he will be speaking (futur progressif), he will have spoken (futur antérieur), he will have been speaking (futur antérieur progressif). Je ne considère que le mode indicatif (quoique là aussi, la dinstinction temps/mode n'est ni claire ni forcément très pertinente), sinon il faudrait au moins ajouter : he would speak (conditionnel), he would be speaking (conditionnel progressif), he would have spoken (conditionnel antérieur), he would have been speaking (conditionnel antérieur progressif).

La liste semble cependant close : autant ces constructions satisfont le logicien par leur côté systématique, autant on doit avouer qu'elles ne sont pas si systématiques que ça : pour tout temps grammatical T on ne peut pas former trois nouveaux temps en mettant au temps T l'auxiliaire dans les constructions be speaking, have spoken et encore moins will speak, sinon on arriverait à des temps comme *he is being speaking (présent progressif progressif ?), *he is having spoken (présent progressif antérieur ?), he has had spoken (parfait antérieur ?), †he is willing speak (présent progressif postérieur ?), etc. : certaines de ces constructions sont plus ou moins défendables (notamment le surcomposé he has had spoken me semble assez correct, en fait), d'autres ne le sont absolument pas (l'auxiliaire will, en fait, n'est même pas vraiment un verbe, donc il est totalement impossible de changer son temps en le remplaçant par be willing ou quelque chose comme ça). Ceci étant, même dans les temps qui existent sans aucune ambiguïté, en ajoutant une couche de voix passive, on peut arriver à des choses aussi agréablement récursives que words that will have been being spoken (le futur antérieur progressif passif).

Le français, en comparaison, a quatre temps simples : il parle (présent), il parlait (imparfait), il parla (passé simple) et il parlera (futur) ; si on considère le conditionnel comme un temps plutôt qu'un mode, il faut y ajouter : il parlerait. Le Bescherelle, comme beaucoup d'autres grammaires, n'admettent comme seule construction de temps composé que la construction avoir parlé (c'est-à-dire l'auxiliaire avoir, ou être selon les verbes, et le participe passé). Ceci donne les temps supplémentaires : il a parlé (passé composé), il avait parlé (plus-que-parfait), il eut parlé (passé antérieur) et il aura parlé (futur antérieur) ; et c'est tout (et il aurait parlé pour le conditionnel passé, agrémenté de la « seconde forme » inexplicable il eût parlé, qui est le seul temps composé qui ne corresponde pas clairement à un temps simple).

Cette analyse me semble un peu simpliste, d'une part parce que d'une part on trouve occasionnellement, peut-être même plus souvent qu'en anglais, des temps surcomposés (il a eu parlé, il avait eu parlé, il aura eu parlé et peut-être il eut eu parlé même si ce dernier fait un peu hu-hu), et d'autre part parce que ça omet deux autres schémas de composition que sont le passé récent et le futur proche : en effet, avec le verbe aller ou venir de suivi de l'infinitif on forme des constructions qui méritent, tout autant qu'avec aller (ou être) suivi du participe passé, d'être qualifiées de temps composés : il va parler (futur proche), il vient de parler (passé récent), mais aussi il allait parler (qu'on pourrait qualifier de futur proche antérieur, mais quand on n'y réfléchit, ce n'est pas très logique par rapport à la différence entre futur simple et futur antérieur, il vaudrait mieux le qualifier de passé prochement postérieur) et il venait de parler (passé récemment antérieur ?). Bizarrement, cela s'arrête là : on ne peut pas mettre aller ou venir de à d'autres temps ; enfin, on peut le faire, mais ça n'a pas le sens idiomatique d'une formation de temps composé (il ira parler signifie qu'il fera un bout de chemin pour parler, pas qu'il sera sur le point de parler ; on s'en rend compte en essayant de mettre au passé puis au futur la phrase tu arrives devant la porte, tu vas frapper : au passé cela donne tu arrivas devant la porte, tu allais frapper et pas tu allas frapper, et au futur on est obligé de dire quelque chose comme tu arriveras devant la porte, tu seras sur le point de frapper).

L'interlingua a trois temps simples : ille parla (présent), ille parlava (passé, dont je vais reparler dans un instant), ille parlara (futur) ; on peut y ajouter un conditionnel, ille parlarea. Mais à ce système de temps simples de richesse intermédiaire entre l'anglais (2 temps simples) et le français (4 temps simples), il ajoute plus de schémas de composition que le français ou que l'anglais : on peut former un temps composé comme en français en conjuguant haber parlate (avoir parlé, donc avoir plus le participe passé, et comme en anglais ce sera toujours l'auxiliaire avoir qui servira), mais aussi comme pour les temps progressifs de l'anglais en conjuguant esser parlante (être parlant), ou encore comme pour les temps proches du français en conjuguant vader parlar (aller parler) ou venir de parlar (venir de parler), même si ce dernier n'est pas explicitement mentionné par les grammaires. Et il n'y a pas de raison de limiter ces deux dernières compositions comme le français le fait, donc on a 4×4=16 temps simplement composés : ille ha[be] parlate (passé composé), ille habeva parlate (passé antérieur), ille habera parlate (futur antérieur), ille es[se] parlante (présent progressif), ille era [=esseva] parlante (passé progressif), ille [es]sera parlante (futur progressif), ille va[de] parlar (futur proche), ille vadeva parlar (passé prochement postérieur(?)), ille vadera parlar (futur prochement postérieur(?)), ille veni de parlar (passé proche), ille veniva de parlar (passé prochement antérieur), ille venira de parlar (futur prochement antérieur). Et il n'y a pas de raison de ne pas surcomposer comme fait l'anglais, donc le he has been speaking de l'anglais peut très bien se traduire ille ha essite parlante, mais rien ne dit non plus que la composition dans l'autre sens, ille es habiente parlate (*he is having spoken), n'a pas autant le droit d'exister. Cela fait une belle floraison de temps !, qui n'a rien à envier à celle de l'esperanto, mais qu'il faut probablement utiliser avec modération si le but est d'être compréhensible et pas de s'amuser (encore que s'amuser est encore la raison la plus valable d'utiliser des langues inventées).

Mais ce n'est pas tout de fabriquer des temps selon des règles logiques, il faut aussi qu'ils aient vaguement un sens, ces temps.

Il est intéressant de comparer le français et l'anglais, parce que l'usage des temps est relativement orthogonal. Il serait rigolo de faire un tableau avec en ligne les 14 temps de l'anglais (ou plus si on compte le conditionnel) et en colonne les 12 ou plus temps du français, et essayer de remplir toutes les cases où on peut donner un exemple assez naturel de contexte où on emploierait tel temps en anglais et tel temps en français. Comme je n'ai pas le courage d'essayer de remplir tout le tableau, je vais juste tâcher de discerner un petit nombre d'usages communs, et pour les temps du passé :

  1. un événement ponctuel dans le passé, présenté dans le cadre d'une narration : on utilisera alors typiquement le passé simple en français (et alors l'oracle parla ainsi) et le prétérit en anglais (and then the oracle spoke thus) ;
  2. un événement durable ou répétitif dans le passé, ou dont la terminaison n'est pas envisagée ou soulignée : on utilisera alors typiquement l'imparfait en français (il aimait couper les cheveux en quatre) et le prétérit en anglais (he liked to split hairs) ;
  3. un événement ponctuel dans le passé, rapporté au présent ou comparé au présent : on utilisera alors typiquement le passé composé en français (hier, j'ai parlé avec un grammairien fou) et le prétérit en anglais (yesterday, I spoke with a mad grammarian) ;
  4. un événement dans le passé situé comme englobant un événement plus ponctuel : on utilisera alors typiquement l'imparfait en français (nous parlions ensemble quand tout d'un coup…) et le prétérit progressif en anglais (we were speaking together, when suddenly…) ;
  5. un événement indéfini dans le passé, produisant des conséquences présentes ou évoqué relativement au présent : on utilisera alors typiquement le passé composé en français (j'ai parlé de grammaire de nombreuses fois sur ce blog) et le parfait en anglais (I have spoken many times about grammar on this blog).

Ce ne sont que des catégories très grossières, je ne prétends ni qu'elles soient très bonnes ou très bien définies, ni que dans chacune de ces catégories on ne puisse pas trouver des cas où le temps choisi sera différent, et je prétends encore moins avoir couvert tous les cas. Mais en première approximation, c'est déjà quelque chose, et en tout cas on voit bien que les temps français et anglais se recoupent très mal. Et cela pose du coup la question, pour une langue inventée comme l'interlingua, de savoir quel temps on utilise dans chaque cas. Pour le cas 5, je n'ai aucun doute qu'on doive utiliser le passé composé (io ha multe vice parlate de grammatica sur iste blog), puisque le français comme l'anglais concourent dans ce sens. Pour le cas 4, puisque l'interlingua a les temps progressifs de l'anglais, on peut sans hésitation les utiliser (nos era parlante insimul, quando subito…). Pour les cas 1 et 2, j'utiliserais le passé simple (e alora le oraculo parlava assi ; ille amava secar le capillos in quatro), même si je suis inexplicablement gêné par le fait que ces deux cas fusionnent (inexplicablement, vu que c'est le cas en anglais et que ça ne me gêne pas). Reste le cas 3, où le français et l'anglais ont une solution nettement différente : faut-il écrire heri, io ha parlate con un grammaticario folle, en imitant le français, ou bien, en imitant l'anglais, heri, io parlava con un grammaticario folle ? J'ai tendance à pencher pour le premier, parce que le second signifie plutôt pour moi hier, je parlais avec un grammairien fou (cas 4 ci-dessus), mais en fait, pour dire ça sans ambiguïté, on peut très bien mettre : heri, io esseva parlante con un grammaticario folle (de nouveau, comme en anglais).

Bref, c'est le problème avec les langues inventées, il n'y a pas d'idiome pour dire ce qu'on doit faire. Ce n'est pas vraiment un problème : les ambiguïtés dont on parle ne sont pas bien graves (ce ne sont pas vraiment des ambiguïtés, juste des hésitations sur l'usage ; mais cf. ce que je racontais ailleurs sur l'« atisme » et l'« itisme » en esperanto, il semble que ça ait été une belle flamewar, pardon, une flammilito). Mais j'ai quand même tiqué en lisant ce post de blog (écrit par un hongrois) en interlingua, auquel je faisais référence dans la précédente entrée, parce qu'il écrit, par exemple, io era presente a iste occasion e faceva photos tamben (j'étais présent à cette occasion et j'ai aussi fait des photos ; il s'agit en gros des cases 2 et 3 de ma catégorisation ci-dessus) là où sous l'influence du français j'aurais mis io era presente […] e io ha facite.

Il serait intéressant de reprendre mes catégories 1 à 5 ci-dessus (éventuellement enrichies ou corrigées s'il s'avère qu'elles sont trop mauvaises) pour donner les exemples dans un maximum de langues pour lesquelles la comparaison a un intérêt (probablement en gros les langues indo-européennes). Pour ce qui est de l'allemand, j'ai tendance à traduire par : (1) und dann sprach das Orakel so (prétérit, donc), (2) ihm gefiehl Haarspalterei (prétérit de nouveau), (3) gestern habe ich mit einem verrückten Grammatiker gesprochen (passé composé parfait), (4) wir sprachen zusammen, als plötzlich… (prétérit) et (5) ich habe oftmals von Grammatik auf diesem Blog gesprochen (parfait) — ce qui colle plutôt mieux avec le français et mon interprétation-française-de-l'interlingua qu'avec l'anglais — mais je ne sais pas si mon intuition linguistique est fiable en la matière.

Une autre question, évidemment, est de savoir si ça a un intérêt quelconque d'avoir des temps verbaux plutôt que tout exprimer par des adverbes. Mais ça c'est une polémique dans laquelle je ne rentrerai pas (pour ne pas démolir les langues indo-européennes : je les aime bien, moi, les langues indo-européennes).


Pote le interlingua realmente servir a communicar ?

Mi pullinetto es presentemente in Italia (a Roma). Ille non parla le italiano, ergo si ille debe communicar con italianos, lo facera in anglese. Que es tristissime : ille poterea comprehender le italiano si illo serea parlate multo lentemente ; sed in senso inverse, le italianos generalemente non comprehende le francese — de facto, illos anque non ben parla le anglese. Il es alique absurde de utilisar le anglese pro communicar inter gentes de linguas latin. Mi oncle, qui parla perfectemente le italiano e qui va satis frequemente in Espania, parla in italiano con le espanioles e illes le comprehende globalemente ; etiam le espanioles pote parlar con le portugeses si istes imita un accento espaniol. Sed si on cognosce solo le francese, que facer ? On poterea parlar un sorta de pseudo-italiano o pseudo-espaniol, sin se fatigar a apprender le conjugationes (io parlo, tu parli, egli parla, noi parliamo, voi parlate, essi parlano : proque non simplemente semper parla ?). E illo, es exactemente que es le interlingua.

Io non crede al possibilitate de successo del linguas inventate (sin motivation politic forte). Sia nos realistic : nemo parla le esperanto e nemo lo parlara unquam, le esperanto non es de alcun utilitate pro communicar. (Io pensa anque que le esperanto es un lingua nimis artificial e disagradabile : vide iste e ille paginas Web pro saper proque. In omne caso, illo es difficile a comprehender si on non lo ha apprendite antea : vos, lectores francese, haberea probabilemente trovate mia kokidetĉjo estas ĉi-hore en Italujo, li ne parlas itale, do se devas komuniki kun italoj, ĝin faros angle minus comprehendibile que le prime phrase de iste texto, mi pullinetto es presentemente in Italia, ille non parla le italiano, ergo si ille debe communicar con italianos, lo facera in anglese ; e pro un chinese, le duos es equalmente 乱语.) Io anque non crede al successo del interlingua como lingua mundial ; e de facto etiam minus gentes lo parla (o simplemente cognosce su nomine) que le esperanto. Il es desperate.

Sed como lingua commun inter populos latin, non es completemente aberrante : le interlingua non pretende al universalitate — e assi illo ha un avantage certe supra le esperanto, es que multe gentes lo comprehende spontaneemente[#]. Io non pote parlar le italiano sin ser ridiculissime, sed io pote parlar[#2] passabilemente le interlingua (sin lo haber unquam vermente apprendite), como vos vide : non es absurde de pensar que, parlante interlingua (o interlingua con qualque parolas de italiano miscite), io serea melio comprehendite del italianos que si io parlarea in francese o in porco-italiano o etiam in anglese. Le ridiculo es certe, sed non plus que quando mi oncle parla in italiano con le espanioles. (Le italianos pensarea probabilemente que io parla in catalan o alique como isto.)

Io ha nunquam experite, sed si io haberea un amico italiano (o espaniol, portugese, romanian…), serea satis natural de nos scriber in iste lingua, post haber convenite de isto. Parlar assi a alcuno que io non cognosce, forsan non (io es nimis timide).

OK, iste post era un experientia (e io jam ha facite un tal : istac e illac[#3]) pro saper : qui lo ha legite usque al fin ? E qui lo ha comprehendite sin haber apprendite le lingua ? Scriber in interlingua es amusante pro me, illo me dona un sentimento de libertate (proque le grammatica non es nimis rigide : illo admitte frequentemente diverse possibilitates equalmente correcte, on non va me dicer que io ha facite multe « faltas », per exemplo que istac non es un existente parola interlingual). Io deberea essayar de scriber aliquando un fragmento litterari gratuite in iste lingua.

[#] Etiam gentes qui parla solo le anglese, apparentemente, e non un lingua latin (io non lo credeva, sed io ha un testimonio in iste senso). Es probabilemente multo plus difficile pro illes, sed non excludite.

[#2] Parlar, scribeva io ? Scriber, certemente, sed parlar, de facto, io non ha realmente experite.

[#3] Non es impressive : il es gentes qui tene un blog integre in interligua (como isto).


Quelques réflexions sur les translittérations

Je suis étonné de n'avoir apparemment jamais encore évoqué sur ce blog un de mes sujets de râlerie de prédilection : la façon dont on transcrit et translittère les langues étrangères. C'est-à-dire, la façon dont on écrit en alphabet latin les mots ou les noms propres d'une autre langue qui s'écrit naturellement dans un système d'écriture non-latin.

La distinction entre les mots transcription et translittération est normalement la suivante : le premier signale que le processus a pour but de reproduire la forme orale du mot transcrit (notamment pour donner des indices à un locuteur non natif sur la façon de le prononcer), tandis que le second a pour but de reproduire la forme écrite du mot. Personnellement, je ne trouve pas cette distinction de vocabulaire très utile, j'utilise transcription et translittération de façon à peu près interchangeable, et je vais tenter d'argumenter que dans tous les cas il faut se concentrer sur la version écrite du mot (quoique, dans le cas de langues comme le chinois ou le japonais, ce serait une version écrite elle-même transcrite, en bopomofo ou en kana — mais c'est un cas plutôt inhabituel) et privilégier un système qui permet de retrouver exactement et algorithmiquement la version dans l'écriture d'origine à partir de la version en alphabet latin. Autrement dit, si on veut faire la distinction entre transcription et translittération, je vais tenter d'argumenter qu'on ne doit jamais transcrire et toujours translittérer (sauf les langues idéographiques, mais je considère quand même qu'il s'agit de translittération), et qu'on doit chercher autant que possible à rendre la langue fidèlement.

Pour prendre quelques exemples, considérons le premier ministre russe Владимир Владимирович Путин : son nom se translittère de façon standardisée (ISO 9) comme Vladimir Vladimirovič Putin (qui reflète fidèlement l'orthographe en alphabet cyrillique), tandis que la transcription utilisée typiquement en français, par exemple dans la presse, sera : Vladimir Vladimirovitch Poutine (si ce n'est qu'en général on n'écrit pas le patronyme), en écrivant tch pour donner une vague idée que cela se prononce [tɕ] ou [tʃʲ], ou pour marquer le son [u] comme en français, et en ajoutant un e à la fin (qui n'existe absolument pas dans l'original) pour que les Français ne soient pas tentés de transformer son nom en quelque chose ressemblant à putain. Tout ceci est très peu systématique. Et encore ai-je choisi un nom posant très peu de problèmes ; l'ancien premier secrétaire du parti communiste soviétique Никита Сергеевич Хрущёв est habituellement appelé Nikita Sergueïevitch Khrouchtchev en français, et officiellement translittéré Nikita Sergeevič Hruŝëv en ISO 9 : ce qui est amusant, c'est que ni l'écriture Khrouchtchev (qu'un français lit comme [krutʃɛf]) ni celle Hruŝëv (que je n'ose pas vraiment imaginer comment il lirait) ne donnent une idée de la prononciation de Хрущёв, [xrʊˈʃʲːof]. C'est bizarre, notamment, cette façon d'écrire ev alors qu'on prétend transcrire la prononciation, qui est clairement of.

Un exemple en arabe, maintenant : tout le monde a entendu parler, et très souvent ces dix dernières années, d'un mot qui en arabe signifie la base, la fondation : ألقاعدة ou, avec les voyelles, أَلْقَاعِدَةُ, et qu'on transcrit comme al-Qaeda (ou peut-être plutôt al-Qaïda en français). La translittération officielle ISO 233 est : ʾˈalqaʾʿidaẗu avec les voyelles, ou bien ʾˈlqʾʿdẗ sans elles. Je conviens que c'est un peu excessivement psychorigide que de suivre à ce point-là l'écriture arabe. Une translittération moins maniaque et qui me semble néanmoins raisonnablement fidèle serait quelque chose comme al-Qāʿidaẗ. L'enjeu est ici un peu différent du russe : pour le russe, la question est de savoir dans quelle mesure on doit essayer (de façon bordélique et incohérente) de mettre le lecteur francophone sur la bonne piste de la prononciation ou au contraire refléter fidèlement l'orthographe en cyrillique ; pour l'arabe, de toute façon la prononciation par le non-initié sera sensiblement la même, il s'agit plutôt de se demander si on doit écrire des signes en plus qui indiquent l'existence de certaines lettres (notamment le ʿ pour transcrire la lettre ع ou ʿayn, et l'astucieux , qui est un ‘t’ tréma si vous ne le voyez pas, pour transcrire le ة ou tāʾ marbūṭaẗ) ou la distinction entre des lettres qui apparaîtraient identiques pour le francophone (comme entre س et ص, sīn et ṣād). Le fait est que le ʿ en arabe est une consonne à part entière, et que le s et le ṣ n'ont rien à voir : retirer ce genre d'information non seulement fait violence à la langue (ce qui est quelque chose d'un peu abstrait), mais, concrètement, embête très gravement les gens qui essaient d'apprendre cette langue et qui ont besoin de cette information pour apprendre les mots en question (évidemment ceux qui parlent déjà arabe arriveront à retrouver ce qui est ainsi dénaturé) ; et ce, sans gain aucun, parce que de toute façon quelqu'un qui voit un ʿ et ne sait pas comment le prononcer va simplement l'ignorer comme si ce signe n'était pas du tout là. Voilà pour quoi je fais attention à bien écrire les prénoms ʿAlī ou Saʿīd s'il ne s'agit pas de quelqu'un qui l'aurait francisé. Évidemment, la question de la francisation se pose souvent, par exemple je ne suis pas certain qu'il soit indispensable de parler de l'ʿIrāq (ou, en fait, du coup, du ʿIrāq), ceci dit on n'est pas obligé de dénaturer ça non plus en Irak alors que le ‘q’ ne choque en rien la langue française.

L'argument maître que j'utilise pour justifier qu'on doit privilégier le reflet fidèle de l'écriture (et donc, si on tient à cette distinction, translittérer plutôt que transcrire) est ce que j'appelle l'argument de Budapest et de Berlin. Car le hongrois et l'allemand sont des langues qui s'écrivent en alphabet latin : personne n'aurait l'idée d'écrire les capitales de la Hongrie et de l'Allemagne autrement que Budapest et Berlin. Pourtant, il n'aura échappé à personne que si on voulait donner l'importance à la prononciation, on devrait écrire Boudapecht et Berline. L'argument est donc : si on admet que, pour les langues naturellement écrites en alphabet latin, on garde l'écriture d'origine (y compris avec ses diacritiques, d'ailleurs) même si cela conduit les Français à en faire une prononciation totalement fausse, il n'y a pas de raison de ne pas faire la même chose pour les langues écrites dans d'autres alphabets, c'est-à-dire, reproduire l'écriture et ne pas se soucier de la façon dont les gens massacreront la prononciation.

Bien entendu, les noms très célèbres se font naturaliser. Ce n'est alors ni une transcription ni une translittération, c'est une acquisition dans la langue : la capitale de la Pologne, en français, s'appelle Varsovie, alors qu'il n'y avait pas de raison de ne pas garder Warszawa (ou tenter de refléter la prononciation avec un truc comme Varchava) ; de même, on a des noms spéciaux pour Londres (London), Munich (München), Anvers (Antwerpen), Florence (Firenze), Lisbonne (Lisboa), Copenhague (København), etc. Dans certains cas il est d'ailleurs possible qu'une forme internationale du nom reflète mieux l'histoire ou l'étymologie de celui-ci que la forme locale (qui n'est d'ailleurs pas unique, certaines villes étant bilingues), ce qui est logique vu que les mots s'abîment quand on s'en sert trop : on peut ainsi défendre l'idée que Florence est un nom plus correct pour la ville que la façon dont les Italiens l'ont massacré, ou que Cologne est mieux que Köln (et pour ne pas que je laisse l'idée que ce sont les Français qui ont toujours raison, il se peut très bien que Marseilles, comme les Anglais l'appellent, soit mieux que Marseille). Donc quand je parle de l'argument de Budapest et de Berlin, ce ne sont pas tellement Budapest et Berlin eux-mêmes (ces noms sont certainement naturalisés, même si ça ne se voit pas) mais le fait que tous les noms hongrois, allemands, etc., célèbres ou obscurs, sont reproduits à l'identique, ou au pire sans leurs diacritiques, quand on les utilise en français : on n'écrit pas Charkeuzy pour essayer de rendre le patronyme de l'actuel président de la république française, même quand on parle de son père (nagybócsai) Sárközy Pál (dont on peut reconnaître que son nom n'est pas francisé au fait que son prénom ne devient pas Paul).

La position qui consiste à dire si c'est de l'alphabet latin, on recopie, si non on transcrit la prononciation n'est pas seulement incohérente et bizarre : elle donne des résultats loufoques si la langue peut naturellement s'écrire en plusieurs alphabets. Va-t-on s'amuser à donner du turc une transcription phonétique avant Atatürk pour recopier l'alphabet latin après lui ? Va-t-on s'amuser à transcrire phonétiquement le serbe depuis le cyrillique et à reproduire le croate dans son alphabet latin d'origine, ce qui pourrait donner au même mot ou nom deux écritures totalement différentes ? Et une fois qu'on admet que le serbe doit se translittérer en alphabet latin comme si c'était du croate, il semble plus qu'étonnant de faire quelque chose de complètement différent avec le bulgare ou le russe.

Quelle que soit la langue, le but le plus important doit être de ne pas perdre d'information, ou d'en perdre le moins possible en respectant la logique de la langue (et notamment, ne pas mélanger deux lettres sous prétexte que les Français n'entendraient pas la différence, si ces lettres sont bien séparées dans la langue d'origine). En général, il existe des systèmes de translittération standard qui accomplissent très bien ces buts, tout en restant raisonnablement lisibles : ce site donne un aperçu très complet de ce qui existe ; en général, les standards de l'ISO sont bons en la matière (ISO 9 pour le russe me semble satisfaisant, ISO 15919 pour les langues indiennes est très bon et d'ailleurs très largement utilisé ; et ISO 233 pour l'arabe est un peu trop illisible, mais on le rend beaucoup plus clair en utilisant abusivement des notations comme ā, ī et ū pour les voyelles longues au lieu des aʾ, iy et uw prévus par le standard et qui reflètent rigoureusement l'écriture).

Reste le problème des langues utilisant partiellement ou totalement des idéogrammes : dans ce cas il faut consentir à réduire l'information de façon intelligente, puisqu'on ne peut pas décemment garder chaque nuance des idéogrammes.

Pour l'ancien égyptien, il existe une réduction standard qui préserve les signes unilitères, convertit les bilitères et trilitères (et leur(s) éventuel(s) complément(s) phonétique(s)) en suite d'unilitères, et omet purement et simplement les signes utilisés de façon idéographique ou comme marqueurs de catégories : on peut alors transcrire 𓇋 comme j (et son doublement 𓇌 comme y), 𓂝 comme ꜥ ou ʿ, 𓅱 comme w, 𓃀 comme b, et ainsi de suite ; et notamment, 𓄿 comme ꜣ, un caractère assez spécial en lui-même (U+A723 LATIN SMALL LETTER EGYPTOLOGICAL ALEF), que j'écris moi-même comme un chiffre 3, et qui n'existe dans l'alphabet latin que pour translittérer le percnoptère égyptien. Je crois que tous les égyptologues utilisent cette translittération standard (dont je ne crois même pas qu'elle ait de nom particulier), probablement pour minimiser le nombre de fois où ils doivent effectivement dessiner des scarabées et des cobras.

Pour le japonais, il existe aussi une réduction standard, ce sont les kanas, qui sont un syllabaire et qui reflètent la prononciation. La difficulté n'est pas complètement close pour autant, car il existe plusieurs façons de translittérer les kanas. La façon la plus courante, qui s'appuie sur la prononciation réelle de ces kanas, s'appelle la transcription Hepburn, tandis que la plus systématique, celle qui suit la régularité du syllabaire, s'appelle Nihon-siki et est standardisée sous le nom d'ISO 3602 strict. Cette dernière garantit qu'il n'y aura pas de perte d'information[#] dans le passage des kanas à leur translittération, et semble donc préférable ; elle est aussi nettement plus logique, et si on imagine que le japonais ait un alphabet, ce serait certainement dans selon les idées de ce système de translittération : le fait qu'un ‘t’ suivi d'un ‘u’ se prononce de façon affriquée, un peu comme si c'était ‘tsu’, serait certainement une règle de prononciation non reflétée dans l'orthographe, et il semble donc logique de translittérer tu (comme en Nihon-siki) et non tsu (comme en Hepburn) pour つ, même si ce dernier reflète mieux la prononciation. D'un autre côté, il est vrai que les occidentaux se sont énormément habitués à voir le japonais transcrit en Hepburn, et les défauts de ce système sont moins criants que le non-système utilisé pour transcrire le russe.

[#] Hum, à lire la description, j'ai quand même un doute : wikipédia semble dire que la voyelle longue transcrite ‘ô’ en Nihon-siki peut correspondre à l'allongement soit par un お soit par un う, ce qui du coup casserait tout. Mais c'est bizarre d'inventer un système suivant scrupuleusement les kanas et de le casser juste sur ce point précis.

Pour le chinois mandarin, il n'existe pas de système d'écriture naturel autre qu'idéographique, mais il existe un alphabet à des fins d'éducation ou de documentation, le bopomofo (zhùyīn fúhào) qui reflète la prononciation (au moins dans une large mesure), et un système de translittération en alphabet latin, le pīnyīn, qui reproduit sans perte d'information l'écriture en bopomofo. Comme il se trouve que c'est effectivement ce système qui est utilisé dans la plupart des cas pour translittérer le chinois (hors des cas spécifiques des mots qui ont été naturalisés, comme Pékin ou Canton), je ne peux qu'exprimer ma satisfaction que, dans une langue au moins, les choses aient tourné correctement. Du moins si on fait l'effort d'écrire correctement les marques tonales sur la translittération en pīnyīn, ce qui n'est malheureusement pas toujours le cas (je fais la même remarque que plus haut pour l'arabe : sans doute les gens connaissant bien la langue peuvent-ils deviner les choses qui manquent, comme un francophone serait capable de lire un texte en français où une lettre sur quatre aurait été effacée, mais il faut au moins penser à ceux qui apprennent la langue translittérée). On reproche parfois au pīnyīn de noter ‘b’ et ‘p’ des sons qui sont en fait tous les deux sourds (la différence se faisant au niveau de l'aspiration), et donc de donner l'idée fausse que le nom de la capitale chinoise 北京 (transcrite Běijīng) commencerait par le son [b] alors que c'est un [p] ; je trouve que c'est un reproche idiot : de toute façon les gens émettront des sons ayant un rapport assez ténu avec ceux de la langue d'origine, il semble plus important de reproduire les contrastes par des contrastes ayant un sens pour eux (notamment entre ‘b’ et ‘p’) que les sons dans l'absolu.

Pour résumer (TL;DR), voici mes recommandations concrètes pour choisir un système de transcription/translittération :


Un point de grammaire : le participe passé

Quand j'étudiais la grammaire à l'école quand j'étais petit, j'étais toujours déçu de l'insistance mise sur la structure plutôt que sur la sémantique. Pour prendre un exemple qui n'a pas de rapport avec le schmilblick dont je vais parler après, si je dis dans la rue, je viens de voir quelqu'un qui ressemble à un acteur américain, cela peut vouloir dire deux choses : soit que ce quelqu'un avait une tête générique d'acteur américain (à supposer qu'il y ait des traits de visage caractéristiques des acteurs américains en général), soit que je pense à un acteur précis, que je ne nomme pas (peut-être n'en suis-je même pas capable) et qu'il ressemble à cet acteur-là ; j'interprète cette différence, même si c'est discutable, comme une ambiguïté sur l'article un, dont il ne suffit pas de savoir qu'il s'agit d'un article indéfini, il y a plusieurs façons d'être indéfini. Si on n'apprend pas aux enfants à voir ce genre de subtilités, ils vont être tout perturbés de découvrir que dans une autre langue, ces deux phrases se disent sans doute de façon différente (en l'occurrence, je n'ai pas d'exemple en tête de langue qui distingue bien les deux, même si en anglais on peut jouer sur la distinction entre an American actor et some American actor ; mais dans ma tête j'ai vraiment deux sens très différents, et je pense que c'est important pour l'apprentissage des langues).

Quand j'étais à l'école primaire et qu'on nous a fait un cours sur la voix passive, avec un exemple qui ressemblait peut-être à le veau est nourri par la vache, j'ai demandé à l'institutrice : comment se fait-il qu'on n'analyse pas cette phrase comme un attribut du sujet (sujet le veau, verbe est, attribut nourri, complément du participe passé utilisé comme adjectif par la vache) ? Elle a dû me faire la réponse que font les adultes quand les enfants posent une question qui les emmerdent, la pire réponse possible pédagogiquement : parce que c'est comme ça. Pourtant, le problème que je soulevais sans le savoir était un problème très intéressant, et elle aurait pu en profiter pour me faire remarquer que la phrase française la porte est fermée a deux sens bien différents, l'un dans lequel il s'agit d'une phrase passive indiquant une action en cours (la porte est fermée en ce moment par deux gardes armés, elle est en train d'être fermée), l'autre dans lequel il s'agit d'un attribut indiquant un état (la porte est fermée, elle n'est pas ouverte, elle est peut-être même fermée à double tour et verrouillée). En grammaire française, on analyse cette différence comme une différence de structure (verbe passif versus attribut), mais en fait il serait peut-être plus pertinent de s'interroger sur le sens du participe passé.

La vérité est que le participe passé, en français, peut être trois choses : passé actif, passé passif ou même, ce qui est un peu ironique pour un participe qui se prétend passé, présent passif. De plus, quand il a un sens passé, il peut avoir le sens d'un passé d'action ou d'un parfait c'est-à-dire du résultat présent d'une action passée (ce que j'appellerai l'ambiguïté d'aspect, plus loin).

Une langue de grammaire de type indo-européen qui fait des distinctions un peu fines distingue au moins quarte sortes de participes : le présent actif, qui indique que le nom complété accomplit l'action représentée par le participe, le présent passif, qui indique qu'il la subit, le passé actif, qui indique qu'il l'a accomplie, et le passé passif, qui indique qu'il l'a subie. Ceci est très approximatif, bien sûr, pour plein de raisons : les temps peuvent être relatifs ou absolus, par exemple (i.e., présent signifie-t-il en même temps que l'action principale de la phrase ou au moment où le locuteur parle ? je pense que pour un participe c'est toujours relatif, mais je n'y mettrais pas ma main à couper) ; ce que signifie accomplir ou subir une action n'est pas très clair pour des actions sans complément et plus ou moins involontaires (je prendrai l'exemple de tomber plus bas) ; et il peut y avoir des complications dues à la confusion entre temps et aspect. Mais au moins en première approximation, cette distinction est utile.

Un exemple de langue ayant la distinction quadruple est le russe : si mes souvenirs de russe sont corrects, лю́бящая де́вочка (présent actif) signifie une petite fille qui aime, люби́мая де́вочка (présent passif) signifie une petite fille qui est aimée, [по]люби́вшая де́вочка (passé actif) signifie une petite fille qui a aimé et полю́бленная де́вочка (passé passif) signifie une petite fille qui a été aimée. Sauf qu'en fait ces sens sont assez approximatifs : pour commencer, comme le suggère le [по] entre crochets, je glisse un peu de poussière sous la table, à savoir le fait que les verbes russes existent sous deux aspects, appelés l'imperfectif (qui envisage l'action pour elle-même) et le perfectif (qui envisage le résultat de l'action) ; c'est une question un peu byzantine de savoir si ce sont deux verbes qui vont ensemble, l'un perfectif et l'autre imperfectif ou bien un verbe qui a deux formes : toujours est-il qu'ici люби́ть est le verbe imperfectif et полюби́ть le verbe perfectif, que les participes présents actif et passif ne peuvent se former que sur l'imperfectif, le participes passé passif que sur le perfectif, et que le participe passé actif peut se former sur l'imperfectif ou le perfectif (avec une distinction du genre la petite fille qui aimait vs. la petite fille qui a aimé) ; ce n'est ni très logique ni très satisfaisant pour l'esprit ou l'orthogonalité voix/temps/aspect, mais c'est comme ça. En plus, le participe présent passif a aussi un sens du genre la petite fille aimable, et en l'occurrence surtout la petite fille préférée. Bref, avec les langues, les choses sont toujours Plus Compliquées®.

Une autre langue qui a la distinction quadruple est l'esperanto : knabino amanta (présent actif) signifie une petite fille qui aime, knabino amata (présent passif) signifie une petite fille qui est aimée, knabino aminta (passé actif) signifie une petite fille qui a aimé et knabino amita (passé passif) signifie une petite fille qui a été aimée. Il y a aussi des participes futurs. Sauf que, de façon plus surprenante pour une langue artificielle, l'esperanto s'est lui aussi enferré dans des confusions temps/aspect, ou peut-être temps relatif / temps absolu, sous la forme d'une controverse entre l'atismo et l'itismo ; pour faire bref, les atistes ou temporistes ont la logique derrière eux et traduisent il est né par li estis naskata, litéralement il a-été étant-en-train-d'être-né, alors que les itistes ou aspectistes ont Zamenhof derrière eux (l'inventeur de la langue, qui ne s'est apparemment pas rendu compte qu'il était illogique) et traduisent il est né par li estis naskita, litéralement il a-été ayant-été-né. L'académie de l'esperanto (oui, ça existe…) a tranché en faveur des derniers, et de toute façon je ne suis pas certain que l'esperanto puisse vraiment se targuer d'avoir un usage vivant (s'il en a un, il utilise en fait d'autres constructions).

Le grec ancien a une pléthore de participes, parce qu'il y a non pas deux voix (active et passive) mais trois (active, moyenne et passive, la voix moyenne ayant en fait un sens actif mais soit réfléchi soit accompli avec un sens d'intérêt pour soi-même, le sens exact dépendant du verbe), et une multitude de temps (notamment présent, aoriste et parfait, l'aoriste insistant sur l'aspect ponctuel d'une action alors que le parfait insiste sur le résultat présent d'une action passée). On a donc des choses comme φιλοῦσα κόρη (présent actif) pour une jeune fille qui aime, φιλουμένη κόρη (présent passif) pour une jeune fille qui est aimée, φιλήσασα κόρη (aoriste actif) pour une jeune fille qui aima, φιλησθεῖσα κόρη (aoriste passif) pour une jeune fille qui fut aimée, πεφιληκυῖα κόρη (parfait actif) pour une jeune fille qui a aimé, πεφιλημένη κόρη (parfait passif) pour une jeune fille qui a été aimée. Mais je ne saurais pas préciser les nuances très exactes dans le sens de tout ça.

En latin l'éventail des participes est nettement plus réduit. On a le participe présent, qui est un participe présent actif, et le participe passé, qui est passé passif : amans puella signifie la jeune fille qui aime tandis que amata puella signifie la jeune fille qui a été aimée. Je souligne bien ce sens passé et passif du participe passé latin : amatus sum ne signifie pas je suis aimé mais j'ai été aimé (pour je suis aimé, c'est : amor). Il y a cependant des verbes, dits déponents, qui se conjuguent avec des formes passives mais un sens actif : dans ce cas, le participe passé a un sens actif, locutus signifie ayant parlé, à côté du participe présent loquens signifie parlant (et pour ajouter à la confusion, il y a des verbes semi-déponents, qui ont une forme active au présent et passive au parfait, mais pour les participes dont je parle de toute façon ça ne change rien par rapport aux verbes complètement déponents).

Le français dérive du latin, mais le sens du participe passé y est beaucoup moins clair. Si j'écris abandonné par ses amis, il se retrouve seul, le participe passé a un sens passé passif : le personnage a été abandonné par ses amis, et je pourrais rendre le sens passé passif plus clair en remplaçant par ayant été abandonné par ses amis ; idem pour : ici repose Pat Icipe, terrassé par la folie de la grammaire, où visiblement Pat a été terrassé avant de reposer ici. En revanche, si j'écris c'est un garçon au naturel charmant et aimé de tous ceux qui le rencontrent, le participe a clairement un sens présent passif (il est aimé de tous en même temps qu'il est au naturel charmant ; soulignons d'ailleurs que rien ne changerait si je mettais le verbe à l'imparfait, c'était un garçon…) ; idem pour ébloui par la lumière, il ne voit pas ce qui l'entoure. Ce n'est pas une question de verbe, mais de contexte : les pierres traînées jusque là ont été disposées en pyramide est passé passif, tandis que les pierres traînées jour et nuit sur de longues distance finissent par s'abîmer est présent passif. Enfin, dans beaucoup de phrases, on ne sait pas très bien si le sens est présent ou passé : trahi par tous ses proches, il ne sait plus vers qui se tourner (est-il ayant-été-trahi ou en-train-d'être-trahi ?), criblé de balles, il s'effondre (les balles le criblent-elles encore quand il s'effondre ? ça n'a pas vraiment d'importance, en fait), enhardi par nos encouragements, notre champion a triomphé de ses adversaires (l'enhardissement est-il simultané ou antérieur au triomphe). À cette confusion sur le temps s'ajoute une confusion sur l'aspect : la porte fermée la veille ne peut pas être de nouveau ouverte marque une action tandis que la porte aujourd'hui fermée à double tour ne peut pas être ouverte sans la clé marque un état, qui est à peu près, mais pas exactement, le résultat de l'action vue comme passée (la différence est surtout frappante quand on observe la façon dont le complément de temps la veille ou aujourd'hui s'applique).

Ceci concerne essentiellement les verbes conjugués avec l'auxiliaire avoir. Pour ceux qui utilisent être, le sens du participe passé est encore différent, puisque cette fois il est actif (ou plus exactement, il est dans la seule voix que le verbe autorise, mais cette voix s'appelle normalement la voix active, même si l'action est plus subie qu'agie) : dans la phrase tombée par terre, la grand-mère ne peut se relever, la grand-mère tombe par terre puis ne peut pas se relever, le participe a donc un sens passé actif. Ces verbes sont en quelque sorte analogues, sémantiquement, des verbes déponents du latin : le participe passé n'a pas de sens passif. Il n'y a pas pour eux d'ambiguïtés sur le temps : je ne crois pas que le participe passé français puisse jamais avoir un sens présent actif (pour ça, il y a un participe présent). Pour illustrer ce fait de façon frappante, je peux donner l'exemple du verbe descendre, qui peut se conjuguer soit avec être soit avec avoir selon le sens qu'on lui donne, ce qui permet au participe descendu d'avoir : un sens présent passif dans la phrase la poubelle descendue par Madame Martin lui échappe des mains et tombe dans l'escalier ; un sens passé passif dans la phrase la poubelle descendue le matin par Madame Martin n'a toujours pas été vidée par les éboueurs ; ou un sens passé actif dans la phrase descendue dans son jardin, Madame Martin profite d'un moment de détente ; en revanche, pour un sens présent actif, on utilise le participe présent : descendant dans le jardin, Madame Martin tombe dans l'escalier et se blesse. En revanche, même dans les verbes conjugués avec être, l'ambiguïté d'aspect subsiste : comparer les phrases mon grand-père, mort aujourd'hui en fin d'après-midi, était un homme bon et mon grand-père, mort aujourd'hui depuis dix ans, est enterré au cimetière de Montparnasse.

L'allemand améliore la logique et la clarté des choses, par rapport au français, en donnant au participe passé un sens toujours passé (et, comme en français, actif ou passif selon que l'auxiliaire régissant sa conjugaison : ein gefallener Engel a le même sens passé actif qu'en français un ange tombé) ; du coup, pour construire le présent passif, on utilise l'auxiliaire werden, dont le sens normal est devenir : die Tür wird geschlossen, littéralement la porte devient [ayant-été-]fermée, donc la porte est en train d'être fermée (alors qu'en français on doit utiliser cette périphrase en train d'être pour insister sur le côté présent passif et non passé passif). Cela permet du même coup de résoudre l'ambiguïté aspectuelle dans une phrase verbale (comme en français) : die Tür ist [heute] geschlossen indique que la porte est [aujourd'hui] dans l'état fermé alors que die Tür ist [gestern] geschlossen worden (où le verbe werden est lui-même utilisé au passé) indique que la porte a été fermée [hier]. (En revanche, dans le contexte d'une apposition, je crois qu'on ne peut pas faire cette distinction : dans les deux cas, il s'agit de die geschlossene Tür ; et théoriquement, die heute geschlossene Tür peut signifier la porte qui a été fermée aujourd'hui, die Tür, die heute geschlossen worden ist, ou bien la porte qui est aujourd'hui dans l'état fermé, die Tür, die heute geschlossen ist. De même, lorsque le participe passé a un sens actif, on ne peut pas faire la différence aspectuelle : er ist gestorben signifie, comme en français, qu'il est mort ou bien qu'il est mort.)

Ceci dit, même en allemand, je pense que par exemple geliebt (le participe passé du verbe lieben, aimer) peut s'employer dans un sens présent passif, comme aimé en français : il est certainement préférable d'écrire er wird geliebt à er ist geliebt pour il est aimé, mais meine geliebte Frau signifie, que je sache, ma femme que j'aime (maintenant) et pas ma femme que j'ai aimé par le passé. Donc même en allemand, la logique peut parfois être sacrifiée au prix de l'expressivité de la langue.


L'abîme regarde l'abîme

Je prends comme exemple d'utilisation de Google images en sémiotique une des citations sans doute les plus célèbres de Nietzsche (fort appréciée des signatures sur Internet et, disent certains, appropriée dans la guerre contre le terrorisme) :

Wer mit Ungeheuern kämpft, mag zusehn, daß er nicht dabei zum Ungeheuer wird. Und wenn du lange in einen Abgrund blickst, blickt der Abgrund auch in dich hinein.

(Jenseits von Gut und Böse, Aph. 146)

La traduction qu'on donne d'habitude en anglais (je ne sais pas pour le français, je la vois surtout passer en anglais) traduit Ungeheuer par monster et Abgrund par abyss : He who fights with monsters should look to it that he himself does not become a monster. And when you gaze long into an abyss the abyss also gazes into you.

Le sens, tel que je le comprends, est quelque chose comme : il faut faire attention à ne pas devenir tel que ce que l'on combat ; à force de s'obséder sur quelque chose, on finit par y ressembler. Mais surtout, cette image de regarder profondément dans l'abîme, qui regarde en retour, est incroyablement forte (on imagine presque la porte de l'enfer sous forme d'une tête monstrueuse, avec laquelle on croise fixement le regard), et je pense que c'est la raison pour laquelle cette citation a du succès. Mais si je traduis Abgrund par abyss en anglais et par abîme en français, ou si je traduis Ungeheuer par monster et monstre, est-ce que je suis fidèle ? On peut évidemment discuter du sens fin du mot selon les dictionnaires, et de savoir quelle est la distinction entre un abîme, un précipice et un gouffre, en fait ce genre d'aphorisme fonctionne surtout parce que les mots évoquent quelque chose en nous plus que par leur sens exact. Or à ce moment-là, je ne suis pas convaincu : si j'en crois le verdict de Google images, Ungeheuer évoque bien à peu près la même chose que monster, mais Abgrund n'a pas la connotation aquatique ou sombre de abyss (même abstraction faite des affiches de films) ou même de abîme en français (pour la partie sombre, pas la partie aquatique qui serait celle de abysse). Apparemment, Abgrund évoque le vertige plus que les ténèbres de l'enfer. Était-ce le cas pour Nietzsche ? Je ne sais pas. Je sais cependant qu'ailleurs (dans Zarathustra), il compare l'homme à ein Seil über einem Abgrunde, geknüpft zwischen Tier und Übermensch (une corde au-dessus d'un abîme, tendue entre l'animal et le surhomme), ce qui fait effectivement plus appel à l'idée de vertige qu'à celle de ténèbre.

Autre question : Nietzsche pensait-il au psaume 42 (ou 41 selon la numérotation) ? Je fais référence à cette phrase : תְּהוֹם אֶל תְּהוֹם, que les Septante traduisent ἄβυσσος ἄβυσσον ἐπικαλεῖται, et la Vulgate abyssus abyssum invocat ? Le sens d'origine n'est pas extrêmement clair (la traduction œcuménique de la Bible donne, pour le verset entier : Les flots de l'abîme s'appellent l'un l'autre, au fracas de tes cataractes. En se brisant et en roulant, toutes tes vagues ont passé sur moi.), mais l'interprétation qu'on en fait généralement quand on cite la phrase, par déformation ou contresens, est quelque chose comme : un mal appelle un autre mal ; et à la fois ce sens et l'utilisation du mot ἄβυσσος par les Septante et la Vulgate font qu'il est tentant de relier ce psaume à l'aphorisme de Nietzsche dans sa traduction anglaise. Je pense que c'est une coïncidence ou une connexion faite plus tard, parce que Luther utilise le mot Tiefe (pas Abgrund), qui évoque plus les profondeurs marines (comme les termes d'origine), et il reformule la phrase (daß hie eine Tiefe und da eine Tiefe brausen) en perdant l'idée qu'une profondeur/abîme/abysse en appelle une autre et certainement d'une manière qui exclut le contresens que je viens d'évoquer.


Ce que Google images nous apprend sur l'imagination collective

Un petit jeu auquel j'aime bien jouer avec Google images : prendre un nom abstrait (mais n'ayant pas d'allégorie traditionnelle évidente) ou un adjectif peu visuel, et essayer de deviner ce qu'il va en sortir avant de faire la recherche. Éventuellement on peut ensuite jouer à changer la langue — cf. aussi ici. Par ailleurs, il faut éviter les termes utilisés dans des titres de films, qui ont tendance à un peu polluer les réponses (enfin, on peut dire que c'est justement le jeu, mais je trouve que ces réponses-là ont tendance à sortir un peu de la moyenne). Peut-être que c'est plus intéressant avec des combinaisons de termes.

Quelques exemples (sans doute pas les meilleurs), à essayer d'imaginer avant de cliquer : chaos, simplicity, reality, ubiquitous, friend, ancestral, harmony

Parfois on voit très bien le genre de choses que ça va sortir, et ça nous renseigne sur les clichés de notre culture collective : voyez ce que donnent evil, calm, holy, love pour quelques clichés parmi les clichés. Il serait parfois bon de se demander pourquoi, au juste, on imagine l'avenir comme ceci (trop de science-fiction ?) ou la liberté comme ça (la chose qu'on a envie de faire, quand on est libre, c'est d'aller sur un bort de falaise au soleil couchant et d'étendre les bras ?) ou encore l'espoir ainsi (une fois retirées les affiches de campagne d'Obama). Et il serait bon de se rappeler que ces représentations sont vraiment le fait d'une culture donnée à un moment donné. (D'ailleurs peut-être qu'il serait intéressant de sauvegarder une compilation des résultats des recherches d'images sur les cinq cents mots les plus courants de la langue, pour les historiens du Zeitgeist.)


Exercice pratique d'élocution

Pour illustrer mon billet récent sur les accents anglais et américain, j'ai tenté de me livrer à un petit exercice pratique : j'ai choisi un texte assez approprié pour l'occasion et j'ai essayé de le lire avec un accent Anglais (RP) et avec un accent américain (General American) (ce dernier étant d'ailleurs plus naturel pour moi, même si j'ai forcé sur les caractéristiques qui font la différence). Je ne suis pas très doué pour ce petit jeu (et j'ai commis quelques erreurs), donc je pense que je ne tromperais personne, mais ça doit pouvoir illustrer plusieurs des phénomènes phonétiques que je décrivais (sauf, malheureusement, celui que je qualifiais de plus évident, à savoir la qualité du ‘a’ des mots comme bath, parce qu'il se trouve qu'il n'y en a pas un seul exemple dans ce fragment).

Je ne vais pas tenter de faire d'autres accents, parce que, outre que le texte ne s'y prête pas, je suis vraiment encore moins compétent pour imiter un accent écossais ou australien qu'un accent anglais (même si j'aimerais beaucoup pouvoir, parce que j'adore les accents écossais et australien ; à défaut, je vous renvoie sur cette dame, qui est quand même très douée). En revanche, il faudra que j'essaie de faire lire un texte français avec un accent québecois, un jour.

𐑢𐑧𐑯 𐑦𐑯 𐑞 𐑒𐑹𐑕 𐑝 𐑣𐑿𐑥𐑩𐑯 𐑦𐑝𐑧𐑯𐑑𐑕, 𐑦𐑑 𐑚𐑦𐑒𐑳𐑥𐑟 𐑯𐑧𐑕𐑩𐑕𐑼𐑦 𐑓𐑹 𐑢𐑳𐑯 𐑐𐑰𐑐𐑩𐑤 𐑑 𐑛𐑦𐑟𐑪𐑤𐑝 𐑞 𐑐𐑩𐑤𐑦𐑑𐑦𐑒𐑩𐑤 𐑚𐑨𐑯𐑛𐑟 𐑢𐑦𐑗 𐑣𐑨𐑝 𐑒𐑩𐑯𐑧𐑒𐑑𐑩𐑛 𐑞𐑧𐑥 𐑢𐑦𐑞 𐑩𐑯𐑳𐑞𐑼, 𐑯 𐑑 𐑩𐑕𐑿𐑥 𐑩𐑥𐑳𐑙 𐑞 𐑐𐑬𐑼𐑟 𐑝 𐑞 𐑻𐑔, 𐑞 𐑕𐑧𐑐𐑼𐑩𐑑 𐑯 𐑰𐑒𐑢𐑩𐑤 𐑕𐑑𐑱𐑖𐑩𐑯 𐑑 𐑢𐑦𐑗 𐑞 𐑤𐑷𐑟 𐑝 𐑯𐑱𐑗𐑼 𐑯 𐑝 𐑯𐑱𐑗𐑼'𐑟 𐑜𐑪𐑛 𐑦𐑯𐑑𐑲𐑑𐑩𐑤 𐑞𐑧𐑥, 𐑩 𐑛𐑰𐑕𐑩𐑯𐑑 𐑮𐑦𐑕𐑐𐑧𐑒𐑑 𐑑 𐑞 𐑩𐑐𐑦𐑯𐑘𐑩𐑯𐑟 𐑝 𐑥𐑨𐑯𐑒𐑲𐑯𐑛 𐑮𐑦𐑒𐑢𐑲𐑼𐑟 𐑞𐑨𐑑 𐑞𐑱 𐑖𐑫𐑛 𐑛𐑦𐑒𐑤𐑺 𐑞 𐑒𐑷𐑟𐑩𐑟 𐑢𐑦𐑗 𐑦𐑥𐑐𐑧𐑤 𐑞𐑧𐑥 𐑑 𐑞 𐑕𐑧𐑐𐑼𐑱𐑖𐑩𐑯.

𐑢𐑰 𐑣𐑴𐑤𐑛 𐑞𐑰𐑟 𐑑𐑮𐑵𐑔𐑕 𐑑 𐑚𐑰 𐑕𐑧𐑤𐑓-𐑧𐑝𐑦𐑛𐑩𐑯𐑑, 𐑞𐑨𐑑 𐑷𐑤 𐑥𐑧𐑯 𐑸 𐑒𐑮𐑦𐑱𐑑𐑩𐑛 𐑰𐑒𐑢𐑩𐑤, 𐑞𐑨𐑑 𐑞𐑱 𐑸 𐑧𐑯𐑛𐑬𐑛 𐑚𐑲 𐑞𐑺 𐑒𐑮𐑦𐑱𐑑𐑼 𐑢𐑦𐑞 𐑕𐑻𐑑𐑩𐑯 𐑩𐑯𐑱𐑤𐑰𐑧𐑯𐑩𐑚𐑩𐑤 𐑮𐑲𐑑𐑕, 𐑞𐑨𐑑 𐑩𐑥𐑳𐑙 𐑞𐑰𐑟 𐑸 𐑤𐑲𐑓, 𐑤𐑦𐑚𐑼𐑑𐑦, 𐑯 𐑞 𐑐𐑼𐑕𐑿𐑑 𐑝 𐑣𐑨𐑐𐑦𐑯𐑩𐑕—𐑞𐑨𐑑 𐑑 𐑕𐑦𐑒𐑘𐑫𐑼 𐑞𐑰𐑟 𐑮𐑲𐑑𐑕, 𐑜𐑳𐑝𐑼𐑯𐑥𐑩𐑯𐑑𐑕 𐑸 𐑦𐑯𐑕𐑑𐑩𐑑𐑵𐑑𐑩𐑛 𐑩𐑥𐑳𐑙 𐑥𐑧𐑯, 𐑛𐑦𐑮𐑲𐑝𐑦𐑙 𐑞𐑺 𐑡𐑳𐑕𐑑 𐑐𐑬𐑼𐑟 𐑓𐑮𐑪𐑥 𐑞 𐑒𐑩𐑯𐑕𐑧𐑯𐑑 𐑝 𐑞 𐑜𐑳𐑝𐑼𐑯𐑛, 𐑞𐑨𐑑 𐑢𐑧𐑯𐑧𐑝𐑼 𐑧𐑯𐑦 𐑓𐑹𐑥 𐑝 𐑜𐑳𐑝𐑼𐑯𐑥𐑩𐑯𐑑 𐑚𐑦𐑒𐑳𐑥𐑟 𐑛𐑦𐑕𐑑𐑮𐑳𐑒𐑑𐑦𐑝 𐑝 𐑞𐑰𐑟 𐑧𐑯𐑛𐑟, 𐑦𐑑 𐑦𐑟 𐑞 𐑮𐑲𐑑 𐑝 𐑞 𐑐𐑰𐑐𐑩𐑤 𐑑 𐑷𐑤𐑑𐑼 𐑹 𐑑 𐑩𐑚𐑪𐑤𐑦𐑖 𐑦𐑑, 𐑯 𐑑 𐑦𐑯𐑕𐑑𐑩𐑑𐑵𐑑 𐑩 𐑯𐑿 𐑜𐑳𐑝𐑼𐑯𐑥𐑩𐑯𐑑, 𐑤𐑱𐑦𐑙 𐑦𐑑𐑕 𐑓𐑬𐑯𐑛𐑱𐑖𐑩𐑯 𐑪𐑯 𐑕𐑳𐑗 𐑐𐑮𐑦𐑯𐑕𐑦𐑐𐑩𐑤𐑟, 𐑯 𐑹𐑜𐑩𐑯𐑲𐑟𐑦𐑙 𐑦𐑑𐑕 𐑐𐑬𐑼𐑟 𐑦𐑯 𐑕𐑳𐑗 𐑓𐑹𐑥, 𐑨𐑟 𐑑 𐑞𐑧𐑥 𐑖𐑨𐑤 𐑕𐑰𐑥 𐑥𐑴𐑕𐑑 𐑤𐑲𐑒𐑤𐑦 𐑑 𐑦𐑓𐑧𐑒𐑑 𐑞𐑺 𐑕𐑱𐑓𐑑𐑦 𐑯 𐑣𐑨𐑐𐑦𐑯𐑩𐑕.


Que demanderiez-vous au génie des langues ?

En fouillant dans votre genier, vous trouvez une vieille lampe à huile poussiéreuse. Lorsque vous la frottez pour la nettoyer, un génie en sort. Ce n'est pas un génie très puissant : le seul vœu qu'il peut exaucer est celui de parler parfaitement une langue étrangère. Par ailleurs, le génie ne sait pas très bien combien de fois il pourra le réaliser, mais ce sera quelque part entre 1 et 15.

Autrement dit, vous devez lister 15 langues qui existent ou ont existé (y compris des langues inventées, des dialectes, états historiques, voire des accents précis si vous voulez griller une cartouche avec ça), et le génie vous rendra capable de parler (et comprendre, mais aussi lire et écrire) les n premières d'entre elles, sans que vous sachiez à l'avance combien (l'intérêt de cette hypothèse est d'obliger à faire un ordre de préférence ; si cela a une importance pour votre réponse, vous pouvez considérer que n est uniformément réparti entre 1 et 15 inclus). Vous maîtriserez ces langues aussi parfaitement que si vous les aviez apprises dès la naissance.

Évidemment, vous pouvez demander une langue que vous connaissez déjà partiellement, mais en ce faisant vous gâchez peut-être un peu le vœu en question (une meilleure stratégie est peut-être de citer une langue proche mais différente, en se disant que parler parfaitement cette langue proche vous aidera à la fois pour améliorer la langue que vous connaissez parfaitement et pour en avoir une de plus dans la liste) ; de même, il est peut-être du gâchis d'utiliser un vœu pour maîtriser une langue facile à apprendre à partir de celles déjà connues de vous (et de celles plus haut dans la liste).

Personnellement, je considère que je parle français et anglais, et je pense que mon choix serait quelque chose comme :

  1. L'arabe classique. Parce que j'ai essayé d'en apprendre un peu, mais que j'ai abandonné et que je le regrette. L'arabe classique parce que la grammaire semble en être la plus intéressante (lire : compliquée), parce que ça permet d'écouter ʾalǦaziyraẗ ou de lire les Mille et Une Nuits en VO, et j'imagine que si on le connaît il est ensuite plus facile d'apprendre tel ou tel arabe vernaculaire que dans le sens contraire. Bref, s'il y avait une langue que je devrais apprendre d'un coup de baguette magique (et d'autant plus que je ne trouve pas le temps ou pas la motivation suffisante pour l'apprendre par des moyens moins magiques), ce serait celle-là.
  2. Le chinois mandarin. Je n'éprouve pas la fascination pour la culture chinoise qui semble être devenue courante, mais une langue parlée par plus d'un milliard de personnes est indubitablement une langue très importante, et quand elle a en plus une littérature immense et un système d'écriture aussi vaste, elle ne pouvait pas ne pas figurer en bonne place.
  3. Le russe. Une langue que j'ai un peu apprise au lycée et que j'ai ensuite soigneusement oubliée : que je connais suffisamment bien pour savoir à quel point cela demanderait un effort démesuré de ma part pour atteindre le niveau nécessaire pour lire ce que j'aimerais pouvoir lire dans cette langue (ah, Pouchkine… ah, Lermontov…). Bon, eh puis quelqu'un qui saurait parler l'anglais, le français, le chinois, le russe et l'arabe (fût-il classique) est quand même bien équipé pour parler avec une bonne partie de la planète : j'écarte l'espagnol parce que ce serait griller un vœu magique avec une langue décidément trop facile, et je passe à des choses qui me sembleraient plus rigolotes.
  4. Le suédois. Que je mets plus haut que l'allemand, par exemple, parce que je parle déjà un peu l'allemand. Tant qu'à apprendre une langue nordique, autant que ce soit la plus parlée. Au fait, je vous ai déjà dit que j'adorais ce webcomic ?
  5. Le grec classique (dialecte attique). La langue (aussi apprise autrefois et soigneusement oubliée depuis) avec laquelle j'aimerais pouvoir frimer entre toutes. En plus, le génie me donnerait exactement la bonne prononciation utilisée à Athènes en 405 avant l'ère commune.
  6. Le japonais. Je ne sais pas bien où le placer sur la liste, mais il devrait certainement y être, avec les autres langues que j'ai fait une tentative pitoyable pour apprendre et que j'ai abandonnées parce que je n'ai aucune volonté.
  7. Le sanskrit classique. Pour l'intérêt philologique (encore qu'à ce compte-là la forme védique est certainement préférable à la forme classique), mais aussi parce que parler couramment sanskrit, c'est quand même ultimement barbot. Alors tant qu'à choisir une langue indienne, autant que ce soit celle-là.
  8. Le gaélique irlandais. Je n'en connais rigoureusement rien, mais les langues celtiques ont l'air d'avoir de très jolies sonorités, et tant qu'à en connaître une, autant que ce soit celle qui est une langue officielle de l'Union européenne.
  9. L'italien. C'est délicat de décider où mettre une langue que j'arrive à peu près à lire et à comprendre quand elle est parlée lentement alors que je ne l'ai jamais apprise. C'est encore plus délicat de décider si je mettrais l'italien ou l'espagnol (les deux, je trouverais ça vraiment bête) : l'espagnol est indiscutablement plus utile, mais je trouve quand même l'italien plus joli. Bon, les génies dans les bouteilles, ils sont là pour faire plaisir, pas pour être utiles, donc disons l'italien.
  10. L'allemand. Une langue que je fais semblant de ne pas devoir mettre beaucoup plus haut sur la liste sous prétexte que je la connais déjà un peu, mais après mon voyage à Berlin l'été dernier je devrais être plus modeste à ce sujet.
  11. L'anglo-saxon. D'intérêt essentiellement philologique (même si, là aussi, c'est certainement assez barbot de parler couramment l'anglo-saxon) : il n'y a pas grand-chose que je voudrais lire dans cette langue (la seule chose que tout le monde connaît, c'est Beowulf, et, franchement, c'est plutôt chiant, même s'il faut avouer que ça sonne bien). Mais je ne vais pas mettre l'anglais dans la liste, alors s'il y a quelque chose qui m'aide à mieux le parler et qui soit quand même intéressant en soi, j'imagine que c'est l'ancien anglais.
  12. Le latin classique (tel que parlé dans la haute société romaine en l'an 27 avant l'ère commune). Que je mets si bas parce que c'est désespérément banal, de parler latin. À ce stade-là, je me dis que si je suis arrivé aussi loin dans la liste, j'ai eu bien de la chance avec mon génie, et je peux arrêter les langues qui servent essentiellement à frimer (certes, je pouvais citer l'ancien égyptien, mais ce que j'en ai appris m'a surtout semblé ennuyeux, en fait). Donc je finis en mettant trois langues choisies simplement pour le fait d'être aussi différentes que possibles entre elles et de toutes les précédentes (afin de m'ouvrir l'esprit au sens sapirwhorfien), en étant parlées par un nombre raisonnable de gens dans le monde (et aussi, en France) :
  13. Le turc.
  14. Le tamoul.
  15. Le wolof.

Maintenant, je n'ai plus qu'à trouver le génie. En attendant, j'attends les réponses de mes lecteurs (en commentaire ou sur votre propre blog si vous en avez un).


Comment reconnaître une prononciation anglaise d'une prononciation américaine

Suite à ma lecture du livre de Wells sur les accents de l'anglais, j'ai vaguement promis d'écrire des choses sur la phonétique qui soient plus compréhensibles (ou en tout cas moins spécialisées) que la dernière fois. Alors voici quelque chose de concret et même éventuellement utile : comment reconnaître un accent anglais d'un accent américain ? Souvent c'est évident même quand on ne parle pas bien la langue (et si ce n'est pas l'accent proprement dit qui fait la différence, ça peut être le vocabulaire utilisé : si un mot sur trois est like, c'est probablement un Américain qui parle). Mais quand la prononciation n'est pas caricaturale et si le texte lui-même ne laisse pas de signe particulier, ça ne l'est pas forcément ; ou bien, on ne sait pas exactement sur quels critères on se fait une intuition. Alors voici un petit récapitulatif des principales différences à remarquer :


Deux livres

J'ai tout récemment commencé la lecture de deux livres que je crois déjà pouvoir recommander (il s'agit de nonfiction — comment diable est-on censé traduire ça en français ? — et du genre qu'on n'a pas spécialement de raison de lire dans l'ordre, donc je ne les « finirai » peut-être pas vraiment, ou pas clairement, ce qui m'incite d'autant plus à ne pas attendre ce moment hypothétique pour donner mon avis).

Le premier (que j'ai trouvé en flânant chez W. H. Smith dimanche soir) s'appelle The Evolution of God (ISBN 978-0-349-12246-5[#]), de Robert Wright. Il s'agit d'un essai sur l'évolution[#2] des trois grandes religions monothéistes, du concept de Dieu dans celles-ci, et de leurs croyances de façon plus générale. Il ne s'agit pas à proprement parler d'un livre d'histoire, mais plutôt d'un livre à thèse, à mi-chemin entre l'histoire (de la pensée) et la philosophie (de la religion), écrit par un auteur qui est probablement athée, ou agnostique entre l'athéisme et le déisme sans confession ; les idées qu'il expose paraîtront probablement choquantes à un Juif, Chrétien ou Musulman très traditionnel, mais ne sont pas une attaque aussi frontale que celles de Dawkins dans The God Delusion : pourtant, je pense qu'elles sont bien plus « dangereuses » pour ces religions, parce qu'elles explorent la façon dont celles-ci sont nées et dont leurs préceptes n'ont pas toujours été les mêmes.

Wright consacre un chapitre aux religions naissantes, un au monothéisme juif, un à l'invention du christianisme, un à l'islam, et un qui semble plus général et plus philosophique sur l'avenir des religions. Je n'ai pour l'instant lu que le passage sur le christianisme (j'ai commencé par là) et le début de celui sur le judaïsme, mais ce que j'ai lu m'a beaucoup intéressé, et j'ai trouvé le point de vue de l'auteur assez séduisant.

Concernant le christianisme, Wright cherche à reconstituer quelles ont pu être les croyances du Jésus historique (sur le compte duquel il expose quelque chose de pas incohérent avec ce que je proposais ici et , d'ailleurs, même s'il ne s'intéresse pas tant au personnage qu'à ses idées) et comment elles ont ensuite été revues par les évangélistes et par Paul de Tarse (aka Saint Paul). Il est assez convainquant, par exemple, lorsqu'il explique que Jésus, dans le courant millénariste/messianique juif, ne promettait certainement pas un paradis céleste et après la mort mais la venue du Royaume de Dieu de son vivant (ou en tout cas du vivant de ses disciples : cf. Marc 9:1) et sur Terre ; et que cette promesse a été revue et corrigée (en faveur d'un paradis plus céleste, après la mort, et d'un Royaume de Dieu plus symbolique) après évidemment le décès du prédicateur et après que le Royaume de Dieu tardait décidément à se réaliser. Il est aussi convainquant quand il défend l'idée que Jésus ne prêchait certainement pas l'amour universel et l'égalité entre les hommes, mais mettait clairement les Juifs en premier dans le Royaume de Dieu, les Gentils n'ayant leur place que comme serviteurs qui ramassent les miettes (cf. Marc 7:25–29), et que l'idée n'est venue aux Chrétiens que quand ils (notamment Paul de Tarse) ont voulu cimenter cette religion et l'exporter aux non-Juifs. Je ne rends cependant pas justice à Wright en résumant ces thèses de façon aussi succincte. Je souligne que l'évolution qu'il trace est celle des idées des premiers Chrétiens : il ne s'aventure pas dans, par exemple, dans la théologie au Moyen-Âge, et évoque à peine le Concile de Nicée — ce n'est pas le sujet qui le préoccupe.

Concernant le judaïsme, son intérêt est d'étudier la façon dont le royaume d'Israël est passé du polythéisme à la monolâtrie puis au monothéisme, en inventant un dieu unique qui réalise la synthèse entre des divinités telles que El et Baʿal (l'un ayant défini le dieu de la bible tel qu'il est quand il est nommé sous ce même nom, l'autre ayant influencé sa version sous le nom de Yhwh). Là aussi, je trouve qu'il défend bien ses idées, par exemple quand il signale le parallèle entre l'assemblée des dieux évoquée au Psaume 82 (81 en grec) et le conseil des dieux que préside le dieu El. J'attends de finir ce chapitre et de lire celui sur l'islam pour me prononcer plus complètement.

[#] Une question qui me tracasse depuis un moment : quel lien « canonique » utiliser quand je parle d'un livre ? Je n'aime pas trop en fournir un vers Amazon ou un autre vendeur de ce genre, parce que je n'ai pas de raison de leur faire de la pub ; il n'y a pas toujours de site Web officiel du livre, et même s'il y en a un j'ai peur que ce genre de site soit moins pérenne que mon blog ou que l'ISBN ; je fournis généralement un lien vers le gadget-à-ISBN de Wikipédia, mais je ne trouve pas celu-ci très pratique. Que faire, alors ? Je me pose aussi un peu la même question pour les films, d'ailleurs : jusqu'à présent j'ai adopté la politique de faire toujours des liens vers leur entrée dans IMDB, mais je commence à me dire que ce n'est pas forcément le plus neutre.

[#2] J'imagine que le mot est choisi à dessein comme clin d'œil aux cinglés qui rejettent les théories fondamentales de la biologie pour des raisons religieuses.

L'autre livre (que j'ai reçu ce matin) n'a aucun rapport : il s'agit d'un traité en trois volumes sur la prononciation de l'anglais et de ses accents, Accents of English de J. C. Wells (ISBN 978-0-521-29719-6 pour le volume 1, 978-0-521-28540-7 pour le volume 2, et 978-0-521-28541-4 pour le volume 3). Ceux qui pensent que le sujet est aride se trompent !

Je connaissais déjà J. C. Wells parce qu'il est aussi l'auteur de l'excellent Longman Pronunciation Dictionary (ISBN 978-1-4058-8118-0 pour la 3e édition), que je recommande également très vivement (c'est le seul dictionnaire que je connaisse à donner fiablement la prononciation britannique et américaine, en l'occurrence en alphabet phonétique, ainsi que de nombreuses variantes, et des statistiques de préférences dans les cas où il y a des doutes). Néanmoins, ce Pronunciation Dictionary reste limité à la Received Pronunciation anglaise et à la prononciation américaine synthétique connue sous le nom de General American. Son livre Accents of English ne se limite pas à ça : il décrit soigneusement les différents accents britanniques (dans le volume 2), mais aussi (dans le volume 3), les différents accents américains, canadiens, australien, néo-zélandais, sud-africain, indiens[#3] et plus.

Il serait facile de rendre la chose complètement illisible : devant la masse de voyelles de l'anglais, et la masse d'accents qui existent, on a vite fait de se perdre. Ce qui est remarquable avec le livre de Wells, tel qu'il m'apparaît après un examen encore peu approfondi, c'est qu'il arrive à faire la synthèse d'une masse de faits disparates de façon qu'on s'y retrouve. Chose que je n'ai probablement pas réussi à faire dans une entrée récente de ce blog, qui ne parlait pourtant que d'un tout petit groupe de voyelles !

Le volume 1 est introductif et peut se suffire à lui-même : il présente la problématique générale, évoque la définition de ce qu'est un accent et la manière dont ils diffèrent, puis il décrit les accents standards Received Pronunciation et General American et la façon dont ils diffèrent, la phonémique (notamment des voyelles) et l'évolution historique. Je pense que ce livre est très précieux pour quiconque s'intéresse à la phonétique et veut apprendre à « parler l'anglais correctement » (quoi que correctement veuille dire). Les volumes 2 et 3 décrivent ensuite en détail les accents anglais de différentes parties du monde, comme je l'ai expliqué, avec toujours beaucoup de soin (par exemple j'y trouve une explication très claire et soigneuse du fameux Canadian rising qui fait que les Américains croient souvent, complètement à tort, que les Canadiens prononcent about comme ils disent a boot).

[#3] Je mets des pluriels un peu au hasard, puisqu'il n'est pas clair ce que signifie le fait d'avoir un ou plusieurs accents dans un pays. Mais dans sa section consacrée au Canada, Wells consacre une sous-section particulière à Terre-Neuve, alors que pour ce qui est de l'Australie, s'il mentionne évidemment des différences, il ne distingue pas une région particulière.


Father, bother, cot, caught, stark and stork

I already wrote something about English vowels versus spelling, now let's concentrate on one small group of vowels versus accents.

Let's start with an exercise for those who (think they) can speak English: here is a list of words with a vowel underlined, you should (without reading this entry any further or consulting a dictionary) try to group the identical-sounding ones, i.e., decide how many different vowels you can hear in this list and which words contain which:

bother, brother, caught, coral, cot, court, dawn, don, farther, father, for, force, forest, four, hoarse, horrid, horse, law, morning, mourning, north, palm, psalm, Shaw, shore, stalk, stark, stock, stork, thaught, thought, war, warp, wash, watt

(Write down your answers and your doubts before reading any more of this, so you won't be tempted to change them. Remember that only the pronunciation matters: e.g., son and sun would be grouped together if they appeared in the list.)

Now, what should be the answer? First, let's cross out the odd word out: the vowel in brother does not sound like any other in the list, it is the same vowel as in son and sun and also mother and other. I included this word as a kind of control: if you think brother rhymes with bother, then either English is not your native language, or you are unaccustomed to noticing the differences between vowels, or your variety of English is unusual and I'd like to know more about it.

Other than that, everyone should agree with at least the following identifications:

(I've used diacritics rather than IPA symbols for these sets, because the actual phonetic realization can vary considerably, as I will describe.)

If you make distinctions among these groups (say, between cot and don), it's probably because your ear is overfussy and cannot ignore the context. On the other hand, I'm definitely not saying that there aren't any more vowel identifications to be made than those described above: for example, if you think father rhymes with bother, that's fine (as I'll be explaining in a minute, most North American speakers should say that). In fact, a sizable number of native English speakers might even consider that all the vowels above (all except brother, that is) have the same sound. And, as we shall see, almost nobody distinguishes ‘ôr’ and ‘ōr’.

Now that we have distinguished seven groups of words, how do people actually pronounce these vowels?

British English Received Pronunciation makes a distinction between ‘ä’, ‘ŏ’ and ‘ô’: the vowel ‘ä’ is pronounced as the long open back unrounded vowel [ɑː], the vowel ‘ŏ’ is short, rounded, and slightly less open, [ɒ], and the vowel ‘ô’ is long, also rounded, and yet less open, [ɔː]. The essential distinction is that of roundness: ‘ä’ is pronounced with unrounded lips whereas ‘ŏ’ and ‘ô’ are rounded. Also, ‘ŏ’ is breve whereas the other two are long. The degree of openness varies (RP ‘ô’ is transcribed [ɔː], but it tends toward [oː]), but this is probably less important. The variants with ‘r’ are pronounced exactly as those without and, since RP is non-rhotic, there is generally no consonant to distinguish. So ‘ä’ and ‘är’ are identical (father and farther are pronounced the same), and ‘ô’ and ‘ôr’ are identical, and so is what we have written ‘ōr’ (caught and court or Shaw and shore are pronounced the same); as for ‘ŏr’, it only occurs with intervocalic ‘r’, so that it is pronounced, but the vowel is otherwise the same as ‘ŏ’. Since I know very little of other British pronunciations, let alone Southern Hemisphere variants of English, I will now concentrate on North America.

North American pronunciations typically merge ‘ŏ’ with ‘ä’ (except in a certain sense before ‘r’, see the end of this paragraph). So American father rhymes with bother, both being pronounced with a long open back unrounded vowel [ɑː] very similar to the ‘ä’ of English RP. The main exception to this is Eastern New England (and most famously, Bawstawn, i.e., Boston) and Pittsburgh: in those areas, ‘ŏ’ merges with ‘ô’ instead, both being rendered as a long open back rounded vowel [ɒː] (furthermore, since Eastern New England speech is partially non-rhotic, con and corn are identical). Elsewhere, the pronunciation of ‘ô’ varies quite a bit, but it is typically more open than in British English: while it is transcribed [ɔː], it could tend to [ɒː] (hence the perception of Bostonian ‘ŏ’ as “aw”). Before ‘r’, it tends to be closer (except where ‘ōr’ has survived, see below), so ‘ô’ and ‘ôr’ may not have identical vowels. Also before (intervocalic) ‘r’, the vowel ‘ŏ’ (hence, ‘ŏr’) has become as in ‘ôr’, except in the North-East where it is unrounded and identical to ‘är’.

In the Western part of the United States and the Northern Midwest (and also Alaska, but excluding the San Francisco Bay area), and pretty much all of Canada, the vowels ‘ô’ and ‘ŏ’ have also merged (this is the caught–cot merger) when not followed by ‘r’: the resulting vowel is transcribed as [ɑː], but it can be slightly rounded; this merger does not take place before ‘r’, so while caught and cot become identical, stark and stork do not (they remain as [ɑːɹ] or even [aːɹ] for ‘är’ versus [ɔːɹ] or even [oːɹ] for ‘ŏr’, ‘ôr’ and ‘ōr’, again with variations).

The distinction between ‘ôr’ and ‘ōr’ is lost in almost all varieties of English. Some isolated areas still have it to some extent (e.g., Louisiana and Mississippi), in which case ‘ōr’ is distinguished by the fact that it is closer and/or partially diphtongized, as is the vowel in toe or goat.

My personal story with regards to all of this is that I learned English in Toronto, Canada, which has the caught–cot merger: so I learned English with ‘ä’=‘ō’=‘ô’ all pronounced as a slightly rounded version of [ɑː], whereas ‘är’≠‘ōr’≅‘ôr’=‘ŏr’ pronounced as [ɑːɹ] and [ɔːɹ]/[oːɹ]. Because of this, I was extremely confused: I could distinguish about three vowels in the whole set, but the distinction I saw did not at all match the one found in dictionaries! I occasionally entertain the idea of revisiting my pronunciation of English and forcing myself to make a maximal distinction in the set (pronounce ‘ä’, ‘ō’ and ‘ô’ all differently, though it is difficult to do so in a way that is compatible with a generally North American accent; and also pronounce ‘är’, ‘ōr’, ‘ôr’ and ‘ŏr’ differently). It is quite possible to change one's pronunciation and to learn to make distinctions: I've done something of the sort in French, and I now distinguish the ‘in’ and ‘un’ nasals ([ɛ̃] and [œ̃]) while initially I did not. It's a good ear training exercise.


Qu'est-ce qu'une « faute » d'orthographe ?

C'est un de mes sujets de logorrhée préférés, et je suis surpris de n'avoir apparemment pas encore râlé à ce sujet sur ce blog : c'est-à-dire pour dire du mal des chieurs de l'orthographe et — la pire race de cette déjà bien triste engeance — de la typographie. Qu'est-ce qu'un chieur de l'orthographe ? C'est quelqu'un qui est armé du Dictionnaire de l'Académie dans une main et du Bon Usage de Maurice Grevisse dans l'autre (et s'il fait partie des chieurs de la typographie, du lexique des règles typographiques en usage à l'Imprimerie nationale, vraisemblablement entre les dents) — je vous laisse transposer à d'autres langues que le français — et qui tient à faire partager sa passion pour ces textes et pour la sodomie sur les diptères avec le même enthousiasme qu'un missionnaire baptiste à répandre la bonne nouvelle et la frustration sexuelle. On les reconnaît au fait qu'ils savent tout du pluriel des mots composés et qu'ils meurent d'apoplexie à chaque fois qu'on suggère que les majuscules ne portent pas d'accent en français (ou qu'on confond le mot majuscule avec capitale, comme je viens de le faire à dessein). On les reconnaît aussi qu'ils savent lire dans le Grevisse exactement comme le baptiste dans la Bible : précisément ce qu'ils ont envie d'y voir.

Trêve de sarcasme facile, mon but n'est certainement pas de dire, pouah, l'orthographe, ça n'a aucune importance, chacun écrit comme il veut, vive le langage SMS et d'ailleurs tout se vaut. Je pense que le nombre de « fautes » d'orthographe sur ce blog est relativement limité (et, en toute honnêteté, ça me chagrine toujours quand on m'en signale, même si je me console en me disant qu'en tapant au kilomètre comme je le fais et sans jamais me relire, c'est assez inévitable). Je n'ai pas non plus la moindre intention de dire du mal du Bon Usage, qui est un livre formidable et que je recommande vivement.

Si certains ont du mal à cerner quelle est ma position, je pense qu'on ne peut pas mieux la résumer que par ce slogan cher au cœur du bon vieux gourou d'Internet, et qui devrait s'appliquer à toute forme de communication ou d'échange : Be conservative in what you send, and liberal in what you accept. C'est-à-dire qu'il faut creuser un gouffre entre ce qu'on considérera comme une faute chez soi-même et ce qu'on signalera comme faute chez un autre ; qu'on doit garder les préceptes religieux par lesquels on veut vivre pour soi, et ne chercher à imposer aux autres que ce qui est strictement et évidemment nécessaire (tu ne tueras point a l'air d'un bon début, reste à savoir à quoi cela correspond dans le monde de l'orthographe). Il n'est pas interdit de signaler des « fautes » aux autres, mais le ton est important : on doit le faire avec la même diplomatie que si on signale à quelqu'un que l'on soupçonne d'être peut-être un Juif pratiquant que ce qu'il s'apprête à manger est un morceau de bacon.

Pour ce qui est de la typographie, il est le plus simple d'expliquer ce qu'est une typographie correcte : la chose la plus importante est d'être cohérent avec soi-même, de chercher à suivre autant que possible les mêmes règles (et si possible, des règles logiques) à l'intérieur d'un texte donné, voire d'un corpus donné. Il faut évidemment que ces règles ne soient pas totalement étrangères à ce que les gens ont l'habitude de voir, mais ceci n'interdit pas d'innover (par exemple en matière de ponctuation). La pratique la plus courante en français, par exemple, veut que les ponctuations doubles (point-virgule, point d'interrogation, point d'exclamation) soient précédées d'une espace insécable fine que les maniaques appellent quart de quadratin insécable, tandis que les deux points sont précédés d'une espace insécable normale, et quant à la virgule et au point ils sont collés au mot qui précède, toutes ces ponctuations étant par ailleurs suivies d'une espace normale (et sécable) ; personnellement, je suis à peu près ces règles, si ce n'est que j'utilise la même espace insécable avant toutes les ponctuations qui en prennent une (je ne vois pas pourquoi les deux points appelleraient plus de symétrie ou d'espacement entre les deux propositions qu'ils séparent que le point-virgule), et quand je tape dans une police à chasse fixe (par exemple dans un terminal) j'utilise deux espaces après la fin d'une phrase, comme il est relativement courant en anglais mais peu pratiqué en français. Je dis tout ça pour signaler que je suis au courant de beaucoup de règles de typographie et que quand et si je ne les suis pas, c'est par une décision bien consciente, et les textes que je tape ont en principe une certaine cohérence. Je m'impose à moi-même des règles bien précises, et assez compliquées, dans l'usage des guillemets par exemple (ou, quand je tape du HTML, pour décider si je mets une balise <q> ou des guillemets dans le texte ; ou d'ailleurs dans l'usage du HTML plus généralement), et je ne cherche surtout pas à en faire la promotion : je dois à mon lecteur que mon texte soit bien formaté, pas à l'emmerder avec les règles quasi-oulipiennes qui président à ce formatage. J'aimerais que cet état d'esprit fût un peu plus répandu ! Quant à l'Imprimerie nationale, elle a le pouvoir de faire des règles pour elle-même, et de s'y tenir (ce qui n'est pas vraiment le cas, d'ailleurs : j'ai remarqué que les (certaines ?) éditions du Journal Officiel omettent systématiquement les accents sur les capitales) : cela ne donne pas à ces recommandations internes, et d'ailleurs elle ne le prétend pas, la moindre portée en-dehors de l'Imprimerie nationale. Personnellement je suis en désaccord avec un certain nombre de leurs choix, mais je ne vais certainement pas en discuter ici.

S'agissant de l'orthographe, la chose qu'ont le plus de mal à admettre les puristes de l'orthographe, c'est que, quand il y a un doute, c'est qu'il y a plusieurs orthographes correctes pour la même chose. Rien ne dit qu'un mot donné, ou une forme grammaticale donnée, ne doit avoir qu'une seule écriture possible, et, à la limite, tant qu'on ne cause pas d'ambiguïté, plus il y en a mieux c'est. Il est ironique de voir combien souvent on cite le Bon Usage pour justifier une règle : or le Bon Usage, justement, adopte une attitude tout à fait louable face à n'importe quelle difficulté, c'est de recommander mollement un choix possible, de l'illustrer par quelques citations de bons auteurs, mais de montrer ensuite par d'autres citations de non moins bons auteurs que d'autres possibilités ont été préférées par ces derniers. Grevisse n'est pas normatif, il est descriptif : il donne des conseils et non des lois, et il excelle à montrer que la langue n'est pas rigide, que toutes les règles sont souples et que les meilleurs écrivains ont pu décider de les ignorer. Quand un emmerdeur vous renvoie au Bon Usage (§1137(a), 1º) pour vous signaler qu'en bon français après que est suivi de l'indicatif, vous pouvez ouvrir ce livre et constater qu'il vous donne les moyen de lui rétorquer qu'avec Sartre, Montherlant, Camus, Aragon, Butor, Robbe-Grillet et d'autres, il est en bonne compagnie ; personnellement, je préfère utiliser l'indicatif après après que, mais je ne relève pas le subjonctif comme une « faute » — c'est une hésitation de la langue, comme il y en a beaucoup, et chacun est libre de se former son propre style.

Proposé-je que la notion de faute d'orthographe n'existe tout simplement pas ? J'ai, en fait, une philosophie très simple : dès lors que celui qui parle ou écrit est conscient de ce que recommandent généralement les grammairiens (c'est-à-dire qu'il connaît la règle, ou les hésitations au sujet de la règle, et qu'il y pense au moment où il s'exprime), et qu'il choisit en toute connaissance de cause la forme qu'il utilise, alors il ne peut pas y avoir de faute : on a éventuellement affaire à une licence de langage, à une innovation, à un néologisme voulu, à une tentative pour réformer la langue, mais pas à une faute. Dès lors, personne n'a d'autorité pour décider de l'orthographe d'un mot que celui qui l'écrit, s'il est bien informé. L'erreur a lieu quand on est distrait ou oublieux, ou ignorant d'une règle qu'on eût choisi de suivre si on l'eût connue. Quand faut-il signaler une erreur ? Quand on pense que cela rendra service : c'est-à-dire quand la personne à qui on s'adresse voulait probablement suivre une certaine règle et l'a oubliée par maqnue d'attention (par exemple, si j'ai écrit maqnue au lieu de manque, je n'étais probablement pas en train de chercher à réformer l'orthographe, mais je me suis simplement emmêlé les doigts en tapant… autant pour moi) ; c'est déjà plus délicat quand on soupçonne que la personne voudrait suivre une règle si elle la connaissait mais ne l'a jamais apprise (mais en général, si un mot s'écrit de telle façon dans absolument tous les dictionnaires français et que quelqu'un l'orthographie autrement, il y a fort à parier que ce n'était pas volontaire et qu'il ignorait simplement l'orthographe préconisée pour ce mot).

Globalement, en fait, on reconnaît le maniaque à ce que ce sont certaines « fautes » très spécifiques, et extrêmement mineures, qui le font réagir : ils peuvent reprendre quelqu'un dont l'orthographe est presque parfaite sur un de leurs dadas, et ignorer complètement des fautes courantes, grossières et assez peu discutables. Personnellement, je m'estimerais déjà très satisfait de l'orthographe de mes compatriotes s'ils arrivaient au point de distinguer clairement je ferais et je ferai, s'ils écrivaient regarde ! sans y mettre une ‘s’ et il faut qu'on se voie avec un ‘e’ et pas un ‘t’. Lorsque ce niveau sera franchi, on pourra réfléchir à la question de savoir si Clemenceau s'écrit avec un accent aigu, merci pour lui mais il n'est pas vraiment prioritaire.

Je parle d'orthographe, mais je devrais sans doute parler plus généralement d'usage de la langue (comme le propose ce fameux livre de Maurice Grevisse auquel j'ai assez fait référence). Les maniaques sont généralement maniaques bien au-delà de l'orthographe : il y a quantité de choses qui les font sursauter. Parfois ce sont des choses très isolées : comme ceux qui insistent pour vous faire savoir que autant pour moi doit selon eux s'écrire au temps pour moi. Parfois c'est une croisade contre un phénomène général, le plus courant étant celui des anglicismes (ce que ne comprennent pas la plupart des gens qui partent dans cette croisade-là, c'est que la majorité des « anglicismes » qu'ils relèvent en français sont, en fait, des usages qui existent depuis très longtemps et dont la fréquence a soudainement crû à la fin du XXe siècle sous l'influence de l'anglais). Ceci étant, je ne suis pas hostile au fait qu'on me signale des subtilités de l'usage, j'aime beaucoup les subtilités (par exemple, mon poussinet me reprochait de parler de wagon pour un des constituants d'une rame de métro : selon lui, quand on transporte des passagers, on doit parler de voiture ; consultation faite du TLF, celui-ci donne des exemples chez Proust, Romains, Cendrars et d'autres d'usage du mot wagon pour des éléments transportant des passagers ou même spécifiquement pour le métro : mais je ne suis pas mécontent d'apprendre que certains usages officiels font la distinction, et dans certains cas je pourrais chercher à la faire). C'est juste qu'il faut se rappeler qu'on n'est probablement pas en train de signaler une faute, mais de profiter de l'occasion pour suggérer une nuance : il convient donc d'avoir le tact qu'on aurait pour soutenir à un rabbin que tel aliment n'est pas kasher — pas d'être un nazi de la grammaire.


Inversion du sujet à la première personne du singulier

Je suis toujours excessivement agacé quand les grammaires donnent des informations incomplètes, et particulièrement quand il s'agit de morphologie. Quand il s'agit de syntaxe, évidemment, on ne peut pas imaginer couvrir tous les cas possibles imaginables, mais dans la morphologie, a priori, on peut, ils sont explicitement énumérables, et je suis d'avis qu'une grammaire devrait donner des règles complètement algorithmiques, ou des tableaux complets, permettant avec certitude de déterminer n'importe quelle forme de la conjugaison ou de la déclinaison. Je me souviens, quand j'essayais d'apprendre le grec par moi-même quand j'étais au collège (et que apprendre le grec voulait dire, pour moi, me farcir la totalité de tous les tableaux de conjugaison possibles imaginables sans jamais me soucier de, disons, traduire un vrai texte d'un vrai auteur grec), j'avais été excédé de constater que mes grammaires ne donnaient pas de règle précise pour la formation du plus-que-parfait de certains verbes (pour un verbe régulier typique, le parfait se forme avec un redoublement de la première consonne, par exemple λύωλέλυκα, et le plus-que-parfait prend un augment ἐ, donc ἐλελύκειν ; mais il y a plein de phénomènes modifiant ce redoublement, même quand le parfait reste plus ou moins régulier, et en particulier le parfait peut commencer par une voyelle, genre ἀγείρωἀγήγερκα ou γνωρίζωἐγνώρικα… mais alors que faut-il faire pour le plus-que-parfait ? faut-il omettre l'augment, le contracter avec la voyelle ou rallonger celle-ci ? mes grammaires ne l'expliquaient pas, mon dictionnaire ne donnait pas la forme du plus-que-parfait, et j'étais furieux de ce manque de complétude). Bon, j'ai vite compris que la conjugaison grecque, en fait, consistait surtout à ne pas chercher de règles (il y a une apparence de règles dans la morphologie grecque, mais quand on regarde dans le détail, parfois ε+ε se contractent en ει et parfois en η, parfois un α long devient un η et parfois non, et les grammaires glosent vaguement sur les raisons de ces choses-là mais ne donnent pas des règles suffisamment précises pour être prédictives) et à apprendre des milliers de formes verbales par cœur…, et j'ai abandonné : le latin est plus une langue de mathématiciens que le grec classique, et il est surprenant que les Grecs anciens aient produit plus de mathématiciens que les Romains.

Maintenant prenons le français : c'est aussi une langue à la conjugaison assez redoutable, même s'il y a assurément moins de formes au total qu'en grec ancien ou qu'en arabe. Il y a un petit livre formidable qui les donne censément toutes, le Bescherelle (et qui a un succès tel qu'il est devenu quasiment synonyme de conjugaison ; il a tenté de capitaliser sur ce succès en éditant également un Bescherelle de l'orthographe et un Bescherelle de la grammaire, j'en ai des exemplaires qui doivent être assez collector, mais ça n'a eu guère de succès, et il faut dire qu'ils sont peu utiles ; le Bescherelle s'est recentré sur la conjugaison — en revanche, ils ont fait d'autres langues que le français, et j'ai par exemple ceux de l'italien et de l'arabe — et la grammaire a été mise sous forme d'un petit appendice sur l'emploi du verbe). A priori, si on a le Bescherelle, on peut produire toutes les formes de tous les verbes français sans avoir à réfléchir.

Mais je me suis rendu compte qu'il y avait une forme (au moins !) que le Bescherelle avait oubliée dans ses tableaux : la première personne du singulier à sujet inversé. En général, l'inversion du sujet ne crée pas de forme de conjugaison nouvelle (tu viensviens-tu), tout au plus insère-t-elle un ‘t’ de liaison (il vava-t-il), ce qui est moins déplaisant que les petits gags d'orthographe que d'autres liaisons du même genre fournissent (va dehors mais vas-y). Mais la première personne du singulier pose, au présent de l'indicatif et du subjonctif et dans une certaine mesure à l'imparfait du subjonctif, des difficultés particulières.

On n'écrit pas aime-je mais aimé-je, ou aimè-je depuis une réforme de l'orthographe de 1990. Ce ‘é” ou ‘è’ (prononcé [ɛ] dans tous les cas) a pour but de rendre prononçable la succession consonne+“je” — du moins c'est ce qu'on prétend parfois, mais c'est de la pure mauvaise foi puisque aime-je n'a aucune raison d'être moins prononçable que aimes-tu ou aime-t-il (visiblement aime-t-on la succession m+consonne puisqu'on en rajoute une exprès !) et comme je vais le dire on invente parfois ce [ɛ] à des endroits où il y n'y avait de toute façon aucune consonne gênante. Très bien, mais quelle est la règle, exactement ? Faut-il remplacer sans réfléchir tout ‘e’ final par un ‘é’ ou ‘è’ ? Non, par exemple on inversera je pèse en pesé-je (ou pesè-je) et certainement pas pèsé-je ; de même, je jette devient jeté-je et pas jetté-je ; et il semble que j'envoie devient envoyé-je (et là on se rend bien compte de l'hypocrisie de cette histoire de rendre la forme prononçable, puisque envoie-je aurait été aussi prononçable que le mot voyage). Le principe du Bescherelle étant qu'on puisse trouver toute forme sans avoir à réfléchir, cette forme inversée aurait dû être donnée.

La règle, apparemment, est que pour les verbes du premier groupe, on prend la deuxième personne du pluriel et qu'on remplace le “-ez” final par “-é[-je]” ou “-è[-je]”. Il doit être équivalent de prendre le participe passé (du moins ne vois-je aucun exemple où ces règles se contrediraient). Pour tous les autres verbes, on garde la forme normale de la première personne du singulier, si ce n'est que pour beaucoup de verbes l'inversion provoque une aversion telle qu'on trouve une autre formulation : on dira bien ai-je, suis-je, dois-je, fais-je, dis-je, vois-je et éventuellement veux-je, entends-je, sens-je, connais-je et quelques autres ; pour pouvoir, il y a une forme spéciale (que je puis également utiliser sans inversion), puis-je, et on évitera peux-je ; il est vrai que des phrases comme vis-je encore ?, ne dors-je pas ?, peut-être cours-je plus vite que toi, ne résous-je ton problème ?, ainsi sors-je dignement, etc., ne sont pas très heureuses. (D'un autre côté, je suis d'avis de ne pas tolérer que la langue ait des verbes défectifs, et que toute forme manquante doit être fabriquée et imposée de force. Et à ce titre, je préfère encore faire violence à l'euphonie en suggérant mets-je, veux-je, cous-je, écris-je, plutôt qu'à la logique en adoptant metté-je, voulé-je, cousé-je et écrivé-je, comme Grevisse en relève quelques exemples quand il discute du sujet dont je parle, cf. Le Bon Usage, §794.)

Mais ceci n'est que pour l'indicatif. L'inversion se fait aussi au subjonctif, avec une valeur optative, jussive ou conditionnelle : pour le subjonctif imparfait, eussé-je, fussé-je, dussé-je sont d'un emploi assez courant (tous ces accents aigus pouvant être graves depuis 1990), et par l'intermédiaire des deux premiers tout verbe au subjonctif plus-que-parfait ; comme le subjonctif imparfait est toujours régulier (à partir de la forme du passé simple), on peut en déduire que l'inversion se fera toujours sur ce modèle. Pour le subjonctif présent, puissé-je est aussi courant, mais c'est un peu court pour en déduire une règle. Une chanson de Mylène Farmer (admirez la référence) propose ainsi sois-je (mais elle prononce [ɛ̃.si.swa.ʒə] et pas [ɛ̃.si.swaʒ]. Mais pour les autres verbes ? Faut-il comme au présent de l'indicatif et à l'imparfait du subjonctif changer un “-e” muet en “-é[-je]” ou “-è[-je]” ? Faut-il par exemple imaginer écrire vienné-je assez vite à ton secours quand tu m'appelleras ! ? Et pour le verbe voir (dont la forme non inversée est que je voie), cela deviendra-t-il voyé-je ?

Ah, naquissé-je seulement plus doué, que ne résolvé-je de mystères de la langue française !


Apprendre à lire la Déclaration universelle des Droits de l'Homme

Les six langues officielles des Nations Unies sont l'arabe, le chinois, l'anglais, le français, le russe et l'espagnol. Même si on peut discuter dans le détail (par exemple pour arguër que le hindi+ourdou devrait y figurer si on ne compte qu'en nombre de locuteurs ; ou que le chinois ne devrait pas y figurer si on mesure l'usage limité qu'il en est fait comme lingua franca en-dehors d'un pays ; etc.), il n'en demeure pas moins que, globalement, c'est une bonne approximation des langues importantes au niveau planétaire. Disons que si on devait choisir six langues à connaître pour se débrouiller sur Terre, pour être citoyen du monde, il s'agit d'un choix plus que raisonnable. Malheureusement, ce sont aussi six langues globalement plutôt merdiques au niveau de la difficulté à les apprendre (je n'ai pas énormément de points de comparaison, mais l'allemand, par exemple, est probablement nettement plus facile à apprendre qu'aucune des six[#] — je parle pour quelqu'un dont la langue maternelle serait extrêmement éloignée des sept langues en question).

Voilà ce qui me donne l'idée suivante : j'aimerais apprendre un texte unique dans ces six langues. Apprendre, c'est-à-dire apprendre à lire et à prononcer (fût-ce avec un accent pourri), tout en comprenant ce que je lis ou prononce ; voire apprendre par cœur, selon la patience que j'ai à réaliser ce défi. Le texte, choisi pour son universalité et pour le fait d'être naturellement disponible dans les six langues des Nations Unies (mais éventuellement dans beaucoup d'autres si je veux continuer le défi), s'impose de lui-même : la Déclaration universelle des Droits de l'Homme. Comme il est assez long et qu'il faut un début à tout, il s'agit au moins de commencer par savoir lire :

يولد جميع الناس أحراراً متساوين في الكرامة والحقوق، وقد وهبوا عقلاً وضميراً وعليهم أن يعامل بعضهم بعضاً بروح الإخاء.


All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

Tous les êtres humains naissent libres et égaux en dignité et en droits. Ils sont doués de raison et de conscience et doivent agir les uns envers les autres dans un esprit de fraternité.

Все люди рождаются свободными и равными в своем достоинстве и правах. Они наделены разумом и совестью и должны поступать в отношении друг друга в духе братства.

Todos los seres humanos nacen libres e iguales en dignidad y derechos y, dotados como están de razón y conciencia, deben comportarse fraternalmente los unos con los otros.

Bon, ce n'est pas tout de savoir comment ça s'écrit, il faut aussi savoir comment ça se prononce. Je n'ai pas de problème pour le français ou l'anglais, et je peux certainement trouver assez facilement comment l'espagnol se prononce. Pour les trois autres langues, il me manque (au moins) un complétement très important pour que la tâche devienne vaguement algorithmique : pour l'arabe la vocalisation complète, pour le chinois mandarin la transcription en pinyin (tons compris) ou en bopomofo, et pour le russe la place de l'accent tonique. Voire, directement, une transcription précise en alphabet phonétique. Cela est beaucoup plus difficile à trouver.

S'agissant de l'article 1 (ci-dessus), on trouve assez facilement ce qui me manque :

يُولَدُ جَمِيعُ النَّاسِ أَحْرَاراً مُتَسَاوِينَ فِي الكَرَامَةِ وَالحُقُوق، وقَد وُهِبُوا عَقْلاً وَضَمِيراً وَعَلَيهِم أَن يُعَامِلَ بَعَضُهُم بَعْضاً بِرُوحِ الإِخَاء.

Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlù píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.

Все́ лю́ди рожда́ются свобо́дными и ра́вными в своём досто́инстве и права́х. Они́ наде́лены ра́зумом и со́вестью и должны́ поступа́ть в отноше́нии дру́г дру́га в ду́хе бра́тства.

On trouve même des enregistrements de gens lisant ça dans chacune des langues en question, ce qui permet de savoir exactement comment il faut prononcer. Pour les articles suivants, ce sera plus dur !

Par ailleurs, conformément à ce que j'avais déjà souligné, il est amusant et intéressant de faire des rercherches dans Google images des différents mots. Par exemple, s'agissant du mot qui signifie dignité (dans égaux en dignité et en droits), voici ce qu'on obtient quand on le recherche : en arabe, en chinois, en anglais, en français, en russe et en espagnol : les êtres humains sont peut-être égaux en dignité, mais manifestement ils ne se la représentent vraiment pas de la même façon ! (Et sur ces images, je préfère clairement la version espagnole.)

[#] Esquisse d'argument : l'allemand a une prononciation passablement régulière par rapport à son écriture (en tout cas par rapport à l'anglais ou au français) et l'écriture donne toute l'information pour lire le mot (contrairement à l'arabe, au chinois et dans une certaine mesure au russe), sa grammaire est d'une difficulté modérée dans l'absolu (nettement plus que l'arabe ou le russe), sa morphologie est limitée (contrairement au français, au russe et à l'espagnol), et son vocabulaire est productif à partir d'un nombre de formes de base nettement plus limitées que la plupart des autres langues. Je pense donc que quelqu'un qui ne parlerait, disons, que le tamoul (pour qu'il soit un peu neutre dans le jugement), et qui disposerait de méthodes ou de professeurs d'un niveau égal, aurait plus de facilité à apprendre l'allemand que l'arabe, le chinois, l'anglais, le français, le russe ou l'espagnol.


Quelle est l'histoire de la ponctuation ?

Des livres entiers ont été dédiés à l'histoire de l'alphabet. Beaucoup moins sont consacrés à celle, qui me semble pourtant tout aussi fascinante, des signes de ponctuation et de tous les autres signes d'écriture qui ne sont pas alphabétiques. Je trouve bien celui-ci, par exemple, mais d'une part il coûte quand même très cher et d'autre part je crois deviner qu'il se limite à un usage strictement typographique (excluant, par exemple, les communications purement électroniques et l'histoire de la ponctuation en informatique), ce qui est dommage.

L'histoire devrait commencer avec l'apparition de l'espace (je ne cesse de m'étonner du temps qu'il a fallu pour que les gens comprissent que c'était une bonne idée de ne pas collertouslesmotsensemble si on veut aider à la relecture), et devrait couvrir jusqu'à la standardisation d'Unicode, en passant par la façon dont les claviers des machines à écrire ont été choisis et la manière dont ASCII a fait la synthèse des jeux de caractères préexistants.

Et c'est une histoire compliquée, parce que les langues s'influencent les uns les autres, et les signes se confondent ou se séparent de façon pas forcément évidente. Pour comprendre l'histoire du point-virgule, il ne s'agit pas simplement de trouver le premier exemple d'un point-virgule dans un texte imprimé (ça doit être vers la fin du XVe siècle en Italie), il faut comprendre aussi comment le point-virgule et le deux-points se sont différenciés et spécialisés (quel a été le premier texte à utiliser l'un et l'autre ? et le premier à les utiliser avec essentiellement les sens modernes ? je remarque par exemple que le manuel de typographie d'Étienne Dolet (1540) ne connaît pas le point-virgule). Il ne faut pas oublier les signes un peu rares : comment sont apparus les signes § (section ou paragraphe), (paragraphe ou pied-de-mouche), @ (arrobase) ou encore (obèle ou glaive) dans les documents imprimés, et avec quel(s) sens ? On trouve des bouts d'information sur Wikipédia (cf. les liens que j'ai donnés) ou ailleurs sur le web, mais c'est souvent très partiel, approximatif ou confus (on mélange allègrement l'histoire de l'apparition du caractère, ses différents usages, sa version informatique…).

J'ai évoqué la naissance d'ASCII en 1963[#] et 1967 : c'est une date fondamentale pour la typographie informatique car les caractères qui ont reçu cet adoubement caractères ASCII sont devenus omniprésents, et les autres ont été relégués à un rôle de second plan (même s'ils ont pu apparaître dans des jeux de caractères ultérieurs : Latin-1 ou Unicode). C'était sans doute inspiré des jeux de caractères informatiques antérieurs, eux-mêmes inspirés des machines à écrire, mais la cohérence n'est pas toujours très évidente. Et ça a changé la face du monde : je ne sais pas au juste pourquoi le signe @ (arrobase) s'est retrouvé dans ASCII et pas le signe § (ce dernier ayant quand même l'air plus commun dans des textes typographiés traditionnels, que ce soit en anglais ou en français, alors que le @ servait traditionnellement uniquement dans quelques notations commerciales), mais je pense qu'il n'est pas besoin d'expliquer comment le @ a vu sa popularité boostée par cette inclusion dans ASCII qui a permis de l'utiliser ensuite dans les adresses de courrier électronique. Alors pourquoi @ et & sont-ils dans ASCII et pas § et  ? Je n'en sais rien. Cette page fournit des explications sur certains caractères, mais pas sur ceux-là. C'est d'autant plus bizarre, d'ailleurs, que des caractères complètement anecdotiques se sont retrouvés dans ASCII, le plus bizarre étant sans doute la barre verticale |[#2]. Mais c'est aussi ASCII qui a rendu universel le backslash \[#3], un caractère presque inexistant auparavant (son histoire est racontée ici par le Monsieur qui l'a inventé).

Les accolades mériteraient certainement qu'on parle d'elles : si leur apparition dans ASCII est due au même Monsieur que le backslash (voici ce qu'il en dit), on peut se demander comment elles étaient apparues sur les claviers de certaines machines à écrire pour commencer — après tout, à part quelques mathématiciens, qui diable aurait eu besoin ou envie de taper des accolades ? En maths on les utilise pour désigner des ensembles, mais j'imagine que ce ne sont pas les mathématiciens qui ont inventé ces signes. Je subodore que leur premier usage était comme des signes très larges placés, par exemple, dans une marge, pour regrouper des lignes entre elles (ou n'importe quelle sorte d'items alignés verticalement), et j'imagine que l'accolade gauche est née avant l'accolade droite (peut-être que ce sont effectivement les mathématiciens qui ont inventé l'accolade droite, et/ou les accolades utilisées comme parenthèses et de taille seulement d'une ligne). Mais alors comment se sont-elles retrouvées sur le clavier d'une machine à écrire (si on veut faire des grandes accolades pour regrouper plusieurs lignes, avoir une touche qui fait une accolade d'une seule ligne de haut ne sert pas à grand-chose…).

Parmi les caractères dont l'histoire est intéressante, il y a aussi Celui Qu'On Ne Sait Pas Nommer — je veux dire celui qui est à l'emplacement 35=0x23 dans ASCII et qui ressemble à un dièse : #. Les gens le prononcent généralement dièse mais ce n'est pas un dièse (le dièse, c'est ça : ♯ — et ce n'est pas un signe utilisé dans la notation d'autre chose que la musique). Il est souvent utilisé en anglais pour précéder un numéro (un peu comme on écrirait en français), et il semble qu'historiquement il vienne d'une notation désignant (aux États-Unis) une livre de poids. Pour cette raison, il est d'ailleurs parfois appelé pound sign, ce qui est une réussite géniale du Club Contexte parce que du coup on le confond complètement avec le symbole £ de la livre (l'unité monétaire britannique), d'autant plus que le # est sur les claviers qwerty US exactement à l'endroit où est le £ sur les claviers qwerty GB (ça c'est vraiment génial, comme façon d'alimenter la confusion). Bref, le # ressemble à un dièse mais n'en est pas un, et s'appelle symbole de la livre même s'il n'en est pas un ! (D'où la suggestion faite dans le Jargon File d'appeler ce caractère shibboleth — comme שבלת dans Juges 12:5–6.)

On pourrait dévier vers l'histoire de toutes les notations mathématiques, d'ailleurs, mais je remarque quand même que ça se recouvre assez peu : les mathématiciens, qui sont très friands de notations exotiques, utilisent assez peu certains des symboles fournis par la typographie (je crois que je n'ai à peu près jamais vu les caractères $, @, § ou ¶ utilisés dans des articles mathématiques, alors qu'ils fournissent un système commode de variations sur le prime).

((J'en profite pour conclure par une exhortation (et je m'adresse à tous ceux qui écrivent des textes, qu'ils soient littéraires ou techniques) : celle de ne pas hésiter à faire un usage libéral, éventuellement même créatif, de la ponctuation. Créer de nouveaux signes de ponctuation est difficile, surtout dans le cadre d'échanges de fichiers informatiques (où on est contraint par ce que les standards permettent), donc il est par exemple difficile d'utiliser la virgule d'interrogation et la virgule d'exclamation (des signes que dont je prétends qu'ils auraient une certaine utilité), ou même le point d'ironie. Mais on peut au moins composer « horizontalement », si j'ose dire, la ponctuation : c'est-à-dire, par exemple, si on en ressent l'utilité !, de faire suivre un point d'interrogation ou d'exclamation par une virgule, un deux-points ou un point-virgule, pour indiquer la nuance avec plus de précision : ce n'est pas autorisé par les règles traditionnelles de la typographie française, n'est-ce pas ?, et ce sont justement ces règles que j'invite à aller voir dans les toilettes si je m'y trouve. Dans des textes que j'écris pour moi-même, il m'arrive d'utiliser deux points-virgules de suite ou d'autres combinaisons un peu exotiques :: mais ce n'est pas aussi intuitivement compréhensible : donc je ne recommande pas forcément ;; par contre, les doubles parenthèses ont une certaine utilité, et se comprennent assez bien, pour marquer un aparté un peu long, typiquement un paragraphe entier. ⁂ Et finalement il n'y a aucune raison de ‹ne pas se servir de signes un peu rares ou un peu détournés›, tant que le lecteur peut facilement deviner que usage l'auteur en fait, ou {au moins !,} tant que ça ne gêne pas la compréhension.))

[#] La version de 1963 comportait les caractères 32=0x20 à 93=0x5d comme maintenant, donc avec uniquement des majuscules (les cases 96=0x60 à 123=0x7b étaient inutilisées, les dernières contenaient des caractères de contrôle supplémentaires), et à la place de l'accent circonflexe (^) et du souligné (_), en 94=0x5e et 95=0x5f, étaient une flèche vers le haut () et une vers la gauche ().

[#2] Barre verticale qui, dans ASCII, est indifféremment trouée au milieu ou pas. Alors que dans Latin-1 et donc dans Unicode il existe deux caractères différents de barre verticale : celle (|) qui n'est pas trouée (à l'emplacement ASCII, donc on est maintenant censé considérer que la barre en question n'est pas trouée), et celle (¦) qui l'est et qui très franchement ne sert absolument et rigoureusement à rien (on se demande vraiment comment elle s'est retrouvée là). C'est assez perturbant, parce que les claviers montrent souvent la barre verticale trouée pour le caractère ASCII : on se retrouve donc avec une touche représentant une barre verticale trouée et qui affiche une barre verticale non trouée.

[#3] Le backslash était prévu pour suivre ou précéder le slash pour former les signes logiques et (utilisés en ALGOL) comme /\ et \/ ; mais en fait, c'est le langage C qui a donné au backslash sont sens le plus commun en informatique actuellement, comme un échappement (il faut aussi signaler son usage dans MS-DOS pour remplacer le slash d'Unix parce que le slash était déjà pris comme séparateur d'options à l'imitation de VMS et CP/M). L'usage d'ASCII par le C est d'ailleurs un peu surprenant parce qu'il ne fait aucun usage des caractères $, @ ou ` et il fait un usage minimaliste du ~ (et très particulier du #) : c'est sans doute pour ça que le sens de ces derniers est beaucoup moins clairement établi que ceux qui servent en C.


Fragment littéraire gratuit #118 (grammaire)

Je crois que vous ne voulez vraiment pas rencontrer cette langue en vrai :

§339. La forme d'un verbe est déterminée par son mode, son temps, son aspect et sa voix.

Les modes verbaux à flexion interne (ou finitifs) sont : l'indicatif, le subjonctif, le métajonctif, l'orthojonctif, l'optatif et l'impératif (sur leur emploi, cf. §828–852). Les modes verbaux à flexion quasi-nominale sont : l'indéfinitif, le définitif et le participe (sur leur emploi, cf. §853–867) : les deux premiers sont souvent, et parfois aussi par abus de langage le troisième, regroupés sous le nom de modes infinitifs. Les temps simples sont (à l'indicatif) : l'éternel, le présent, le prétérit et le futur. Les aspects verbaux sont (à l'indicatif prétérit) : l'aoriste, l'inchoactif, l'imparfait et le parfait. (Sur l'emploi des temps et aspects, cf. §898–914.) Les voix verbales sont : l'actif, l'objectif et le subjectif (sur le sens des voies verbales, cf. §784–789).

Toutes les combinaisons ne sont cependant pas possibles : le mode optatif n'a pas de prétérit, et le mode impératif n'a pas de futur ; le mode indéfinitif entraîne nécessairement l'aspect aoriste ; l'aspect inchoactif n'existe qu'aux temps présent et prétérit, et le temps éternel qu'aux aspects aoriste et imparfait.

§340. Chacun des mode, temps et aspect du verbe est marqué par un flexème particulier, qui sont normalement adjoints dans cet ordre sauf pour le flexème *u0[3] du métajonctif qui est adjoint en dernier (cf. §347–351). Les voix verbales sont ensuite marquées dans les modes finitifs par un jeu de flexèmes (§390–398) dépendant du sujet principal aux voix active et subjective, et de l'objet principal à la voix objective.

Il existe en outre, à l'indicatif, des temps dits composés (cf. §378–382), qui sont le plus-que-prétérit (aux aspects imparfait et parfait), le futur antérieur, et le conditionnel (ou futur postérieur), formés respectivement par l'adjonction de deux flexèmes *ne[2] du prétérit, d'un flexème du prétérit puis d'un flexème *s[3] du futur, ou inversement d'un flexème du futur puis d'un flexème du prétérit.

§341. Les paradigmes grammaticaux sont généralement donnés sur le verbe *tis[2]gar[3] (faire, accomplir).

Ainsi on a à l'indicatif : éternel aoriste tiset gar (il fait), présent aoriste tisgar i (il fait), prétérit aoriste tisne gar (il fit), futur aoriste tisgars (il fera), présent inchoactif tisgarəŋ (il commence à faire), prétérit inchoactif tisneŋ gar (il commençait à faire), éternel imparfait tisja gar (il fait pour toujours), présent imparfait tisjasu gar (il est en train de faire), prétérit imparfait tisneja gar (il faisait), futur imparfait tisjas gar (il sera en train de faire), présent parfait ekkar tis (il a fait), prétérit parfait ekne tis-gar (il avait fait), futur parfait ekkars tis (il fera).

Au subjonctif (flexème *j/*jə[4], cf. §342–344) : éternel aoriste tiseč gar, présent aoriste tisgarji, prétérit aoriste tisnej gar, futur aoriste tisgars jə, présent inchoactif tisgarəŋ jə, prétérit inchoactif tisneŋ garjə, éternel imparfait tisjaj gar, présent imparfait tisjasu gar-jə, prétérit imparfait tisneja garjə, futur imparfait tisjas gar-jə, présent parfait ekkarjə tis, prétérit parfait eknej tis-gar, futur parfait ekkars tis-jə.

Au métajonctif (flexème *t/*ti[3], cf. §345–346) : éternel aoriste tisetti gar, présent aoriste tisgart i, prétérit aoriste tisnet gar, futur aoriste tisgarts, présent inchoactif tisgartəŋ, prétérit inchoactif tisnetəŋ gar, éternel imparfait tisjat gar, présent imparfait tisjatsu gar, prétérit imparfait tisneja gart, futur imparfait tisjats gar, présent parfait ekkart tis, prétérit parfait eknet tis-gar, futur parfait ekkarts tis.

À l'orthojonctif (flexème *u0[3] post-adjoint, cf. §347–351) : éternel aoriste tisetu gar, présent aoriste tisgaru i, prétérit aoriste tisneu gar, futur aoriste tisgarsu, présent inchoactif tisgarəŋu, prétérit inchoactif tisneŋu gar, éternel imparfait tisjau gar, présent imparfait tisjasuu gar, prétérit imparfait tisnejau gar, futur imparfait tisjasu gar, présent parfait ekkaru tis, prétérit parfait ekneu tis-gar, futur parfait ekkarsu tis.

À l'optatif (flexème *e[3], cf. §352–354) : éternel aoriste tisete gar, présent aoriste tisgare i, futur aoriste tisgares, présent inchoactif tisgareŋ, éternel imparfait tisjaa gar, présent imparfait tisjaasu gar, futur imparfait tisjaas gar, présent parfait ekkare tis, futur parfait ekkares tis.

À l'impératif (flexème *an[1], cf. §355–359) : éternel aoriste anet tisgar, présent aoriste aŋgar tis, prétérit aoriste anne tisgar, présent inchoactif aŋgarəŋ tis, prétérit inchoactif anneŋ tisgar, éternel imparfait añja tisgar, présent imparfait añjasu tisgar, prétérit imparfait anneja tisgar, présent parfait anek tisgar, prétérit parfait anek tisne-gar.

(Pour les modes infinitifs et participe, cf. §403–410.

§342. L'indicatif n'est pas marqué par un flexème particulier : *tis[2]gar[3] (faire, accomplir) → tisgar i (il fait, présent aoriste). Les verbes dits éthiques (dont le mode naturel est l'optatif) et prennent cependant flexème *pa2[4] : ainsi, *deʒ[3] (avoir pour but) → deʒpa i (il a pour but, présent aoriste), nepa deʒ (il eut pour but, prétérit aoriste).

Le défi, ensuite, ce serait de reconstituer, à partir de ça, les règles d'ordonnement des flexèmes (celles qui constituent les §35ss).


Comment apprendre des langues en dilettante

J'ai déjà dû à plusieurs reprises sur ce blog dire du bien de la méthode Assimil : pas spécialement que je pense qu'elle soit meilleure qu'une autre dans l'absolu mais je trouve que, avec ses enregistrements de textes parlés et avec le principe d'apprendre instinctivement en s'efforçant de comprendre ce qu'on entend/lit, elle convient très bien à quelqu'un qui, comme moi, a une mémoire essentiellement auditive, un goût pour retenir des fragments de phrases, une satisfaction à comprendre « naturellement » ce que j'entends, et aucune envie de parcourir des listes de vocabulaire hors contexte ; par contre, il faut souvent que j'y ajoute une grammaire pour satisfaire ma curiosité de geek pour les règles complètes avec des myriades de cas et de sous-cas.

L'ennui, c'est que je suis aussi immensément paresseux. La méthode Assimil est probablement la moins mauvaise pour les gens paresseux, aussi, parce qu'elle demande assez peu d'efforts actifs, juste du temps à trouver, mais même comme ça la patience d'arriver au bout de quoi que ce soit que je commence me manque systématiquement. Surtout que l'apprentissage d'une langue n'a pas de fin. Au contraire, c'est une tâche dans laquelle les retours sur investissement tombent rapidement. Ce n'est pas surprenant, d'ailleurs : quelle que soit la langue, la fréquence des mots suit quelque chose comme une loi de Zipf, donc avec cent cinquante mots de vocabulaires on déchiffre peut-être la moitié d'un corpus, mais il en faudra peut-être deux mille pour comprendre les trois quarts du corpus et huit mille pour les neuf dixièmes — bref, plus on progresse, moins on progresse vite. Enfin, ça n'explique pas que je n'arrive pas au bout des méthodes Assimil qui, elles, contiennent un nombre fini (et connu à l'avance) de leçons et, même si la difficulté en va croissant, c'est normalement surmontable ; et quand on finit, si jamais on finit, on doit arriver pour la plupart des langues à baragouiner quelque chose d'assez potable tout de même.

Le dilettante comme moi fait contre mauvaise fortune bon cœur : apprendre une langue est difficile ? Qu'à cela ne tienne : dès que ça deviendra trop difficile, on changera de langue. Je présente ça comme un choix de paresseux, mais ce n'est pas forcément idiot. Ou du moins, il faut savoir dans quel but on apprend une langue. Quand je vois les difficultés que j'ai à lire le moindre texte allemand, je renonce à peu près, pour ma part, à l'idée de maîtriser complètement autre chose que le français et l'anglais ; et même mon anglais je me décourage de la façon dont il fout le camp quand il s'agit de le parler ou de l'écrire (mais au moins je le lis aussi bien que le français). Bref, si j'entreprends d'apprendre une autre langue, ce n'est pas pour la parler, ni même vraiment pour la lire, c'est pour m'en faire une idée, c'est pour regarder un petit peu sa beauté propre, ou peut-être simplement pour assouplir mes neurones sur sa grammaire et exercer mon oreille et ma langue à ses sons. Ou, si c'est pour comprendre des textes dans cette langue, ce seraient des textes accompagnés de leur traduction : il n'y a rien d'absurde à lire une œuvre en traduction mais, quand on rencontre une phrase mémorable, une phrase particulièrement forte ou qui nous touche spécialement, d'aller faire l'effort d'en retrouver la version originale pour la décortiquer, mot par mot, et savoir ce que l'auteur a vraiment écrit dans ses propres termes — or, pour cela, une connaissance assez faible de la langue suffit, puisqu'on a déjà la traduction, il s'agit juste de reconstituer les structures grammaticales. (À titre d'exemple, j'avais apprécié que la RATP, à une époque, mettait dans les couloirs du métro des poèmes dans toutes sortes de langues, avec leur traduction française ; ça m'avait permis d'apprécier un poème en russe, chose que normalement je ne pourrais pas faire.)

Depuis que j'ai commencé ce blog, j'ai essayé avec la méthode Assimil d'apprendre un peu de japonais, puis d'arabe. Dans les deux cas j'ai arrêté, mais je garde l'espoir ou l'intention de reprendre (surtout l'arabe, dont la grammaire m'intéresse plus, et qui ne pose pas le problème des kanji que je ne pourrai jamais retenir puisque je n'ai essentiellement aucune mémoire visuelle) : ce n'est d'ailleurs pas forcément une mauvaise chose d'apprendre quelque chose, de se donner le temps de l'oublier, et de le réapprendre ensuite — je sais que quand il s'agit de maths, ça me permet de bien mieux comprendre la deuxième fois (ou souvent, la trente-douzième fois).

Là, je viens de commencer l'étude du suédois. En fait, c'est plus une blague qu'autre chose, je n'ai pas vraiment l'intention de m'y mettre sérieusement. Le truc, c'est qu'il m'est arrivé plusieurs fois que des gens (dans la rue, dans le métro, ou pendant que je faisais les courses) s'étonnassent de la blondeur de mes cheveux et de la couleur de mes yeux, refusassent de croire que je pusse être français (pourtant, les blonds aux yeux bleus, en France, ce n'est quand même pas si rare ! je veux bien que mes cheveux soient très clairs, mais de là à m'apostropher à ce sujet…) et insistassent pour que je dusse avoir des origines scandinaves. (Si j'en crois cette carte-ci ainsi que celle-là, ils n'ont statistiquement pas complètement tort, même si ce serait plutôt la Finlande qu'il faudrait soupçonner.) Alors si les gens veulent absolument croire que je suis Suédois je devrais peut-être entretenir leurs illusions. Peut-être devrais-je me faire faire un tee-shirt sur lequel serait écrit (en jaune sur bleu évidemment) :

Innan en idiot frågar:
Ja, jag är egentligen blond och blåögd.
Men nej, jag är inte från Sverige.

(Avant qu'un idiot ne demande : Oui, je suis vraiment blond aux yeux bleus. Mais non, je ne viens pas de Suède. Ou faudrait-il ajouter une interjection ?)

Pourquoi le suédois plutôt que le danois ou le norvégien, voire l'islandais ? Simplement parce qu'il fallait bien faire un choix, et que le suédois est le plus parlé (et peut-être le plus plausible pour un blond aux yeux bleus ?), et peut-être que sa prononciation est plus intéressante que celle du danois. Mais bon, mon but serait plutôt juste d'arriver à comprendre la phonologie du suédois, qui a l'air assez intéressante, et surtout d'arriver à l'articuler avec autre chose qu'un accent allemand à couper au couteau (ce que j'ai spontanément tendance à faire). Si ma paresse ne me dépasse pas, après quelques semaines, je reprendrai l'arabe en alternance (en gageant que le suédois et l'arabe sont assez différents pour ne pas risquer de les mélanger).

Sinon, j'ai découvert qu'Assimil avait lancé la méthode de grec ancien. Je savais déjà qu'ils avaient fait le latin, avec des textes aussi mémorables que nous partons en vacances en voiture (non, je n'ai pas le manuel sous la main pour vous vérifier comment ils ont traduit voiture) : mais c'est vrai qu'il y a, en latin, une tradition assez respectable de créer des mots pour tous les concepts modernes (ne serait-ce que parce que le pape doit bien avoir un moyen d'écrire une encyclique condamnant la dépravation sur Internet, n'est-ce pas ? 😉), et même Harry Potter est traduit en latin. Mais le grec classique, c'est encore bien mieux. Hélas, ils n'ont pas poussé la blague au même niveau, et on ne parle pas, dans l'Assimil grec ancien, de partir en vacances en voiture. Mais il y a quand même une geek-valeur ajoutée certaine, c'est que la prononciation utilisée dans les enregistrements est la prononciation restituée où même les accents (mélodiques) sont respectés : le φ est prononcé [pʰ] et pas [f], le ζ est prononcé [zd] et pas [dz], etc.

Parlant de prononciation des langues anciennes, en errant sur YouTube, je suis tombé sur cette lecture des 19 premiers vers de Beowulf en anglo-saxon (Hwæt, wē Gār-Dena in geārdagum, / þēodcyninga þrym gefrūnon, / hū ðā æþelingas ellen fremedon, etc.) : c'est assez amusant à écouter. Et typique de ce que je veux dire quand j'explique que ça peut être intéressant d'apprendre une langue juste assez pour pouvoir la comprendre quand on met le texte en regard de sa traduction.


Comment se repérer dans Babel ?


Ce que j'aime bien dans le fait de vivre dans une ville assez cosmopolite, c'est qu'on entend des gens parler toutes sortes de langues. Un jeu que j'aime, c'est alors d'essayer de deviner laquelle exactement. Il y en a que je sais reconnaître immédiatement (le français ou l'anglais, évidemment[#], ou l'allemand, l'italien, le russe) parce que je les baragouine plus ou moins, ou parce qu'en j'en ai au moins quelques notions (le japonais, l'arabe, peut-être le hongrois), ou parce que je connais des langues assez proches pour en avoir une idée (le néerlandais, l'espagnol), ou encore parce que sans rien connaître de la langue j'ai assez l'habitude de l'entendre parler pour savoir l'identifier (le chinois mandarin). Parfois je ne saurai pas être parfaitement précis mais je saurai au moins donner un petit nombre de suspects : entre le danois, le suédois et le norvégien, j'y arriverais peut-être en entendant des gens parler de façon parfaitement distincte ou si j'ai repéré à l'avance ce qu'il faut écouter — mais en général je ne saurai que dire que c'est sans doute une de ces trois langues (comme mon blog est fréquenté par des gens infiniment raffinés et cultivés, j'imagine que je vais provoquer la consternation par cet aveu : mais oui, comme ça, au pied levé, je suis incapable d'identifier du danois, du suédois et du norvégien parlés — surtout pas les deux derniers). Généralement je suis assez nul pour ce qui est des langues non-européennes, cependant : il est fort possible que j'aie pris pour du chinois des langues qui n'en étaient pas, je ne suis pas certain d'arriver à reconnaître du hindi et du tamoul, et je ne sais absolument rien des langues d'Afrique subsaharienne. Même pour les langues européennes, d'ailleurs, il m'est arrivé de faire l'erreur embarrassante de prendre du portugais pour du polonais.

Je suis étonné de ne trouver nulle part sur Internet de cours ou de concours de reconnaissance de langues parlées : je trouverais ça très intéressant, moi, qu'une vidéo m'explique — échantillons de conversation à l'appui — par quels indices identifier quelque chose comme 200 langues différentes ; et ce serait rigolo de faire des jeux ensuite.

Heureusement, s'agissant des gens qu'on voit dans la vraie vie, on a souvent des indications annexes. Par exemple, ils peuvent avoir un tee-shirt écrit dans leur langue, ce qui donne énormément d'indices (mais il faut se méfier : souvent, ce sont des touristes, et ils peuvent visiter plein de pays, surtout s'ils viennent de loin). Le type ethnique aide parfois : le jour où j'entendrai deux personnes apparemment asiatiques parler en swahili, je serai bien bluffé et je ne m'en rendrai même pas compte (et c'est dommage, parce que ça a de la classe, pour deux Thaïlandais à Paris, de parler en swahili).

Et parfois il y a des mystères complets. Lundi, mon poussinet et moi avons entendu trois personnes qui parlaient une langue qui était peut-être du persan, mais je n'ai pas complètement écarté la possibilité que ça pût être du turc ou de l'hébreu (ou de l'arménien, ou de l'albanais… enfin, je dis des choses à peu près complètement au pif, là). Ce n'est même pas forcément facile de trouver des exemples de textes enregistrés dans certaines langues, encore moins facile de trouver des exemples de textes comparables dans toutes sortes de langues différentes.

C'est dommage : beaucoup de gens n'ont pas l'air d'apprécier ce fait qu'on peut trouver une langue belle même sans la connaître — par la forme de ses caractères, par la sonorité de sa prononciation, par quelques notions de grammaire qu'on en sait, ou par quelques mots qu'on aura appris par cœur et qu'on aura passé beaucoup de temps à bien analyser, et qui font que même si on ne peut vivre assez vieux pour savoir toutes ces langues, on peut au moins leur témoigner un peu de respect et saisir le parfum de leur poésie.

[#] Enfin, non, pas évidemment : on peut très bien ne pas identifier des langues qu'on connaît, et d'ailleurs il m'est arrivé de me demander quelle langue quelqu'un parlait et de me rendre compte après un moment que c'était du français (et même pas parlé avec un accent bizarre, juste qu'avec le bruit ambiant je m'étais persuadé que ça devait être une langue étrangère). Je me rappelle aussi que quand j'étais à Munich avec mes parents en 1990 nous attendions désespérément de rencontrer des vrais Bavarois, les vrais Bavarois étant définis comme des gens dont l'accent serait si fort que nous ne comprendrions rien de ce qu'ils disent : un jour, à côté de nous dans un restaurant nous avons entendu deux Messieurs dont nous nous sommes dit enfin, voici nos vrais Bavarois — mais à écouter plus attentivement, on a remarqué que le mot focking était souvent répété : en fait, c'étaient des Écossais qui parlaient anglais.


Je reprends l'arabe

Je me remets à ma tentative d'apprendre un peu d'arabe, interrompue par deux semaines de concours (ce qui n'est pas peu vu que ça ne fait que deux mois que j'ai commencé à étudier cette langue…). J'en suis à la leçon 36 sur les 77 que compte la méthode : cela ressemble à presque la moitié, mais en fait cette impression est trompeuse parce que j'ai l'impression que la difficulté des leçons croît très vite, du coup j'ai vaguement le sentiment de me faire arnaquer. Plein de points de grammaire sont renvoyés à une hypothétique explication ultérieure avec des encouragements conciliants (ne vous en préoccupez pas pour l'instant — soit, mais du coup c'est plus lourd à apprendre si on ne connaît pas la règle). Et surtout, j'ai l'impression qu'une difficulté majeure de la langue — celle des pluriels, qui ne suivent aucune logique — est complètement glissée sous le tapis avec la recommandation apprenez bien chaque mot avec son pluriel : moui, moi je veux bien, mais encore faut-il que je puisse le savoir, le pluriel en question, or le lexique en fin de volume a l'air de ne pas les donner systématiquement, ni de renvoyer chaque pluriel à son singulier, pas plus que le petit dictionnaire (pas terriblement bien fait) que je me suis acheté. Par exemple, je ne sais toujours pas quel est le (masculin) pluriel d'un adjectif aussi commun que جَمِيلٌ (qui signifie beau et qui est un des rares adjectifs que je connaisse), donc c'est mal parti pour apprendre chaque mot avec son pluriel.

Peut-être que je m'y prends mal, mais cette langue est quand même terriblement décourageante.


Devrait-on créer un wikiassimil ?

Normalement, toutes les bonnes idées vaguement évidentes ont déjà été trouvées et implémentées (c'est l'inconvénient de naître trop tard dans un monde déjà vieux), mais pour une fois que j'aimerais bien trouver le truc tout fait, ben je ne trouve pas.

Je voudrais un site qui soit organisé probablement sous forme de Wiki et consacré à l'apprentissage des langues : les natifs d'une langue donnée pourraient y enregistrer des petits textes dans leur langue (soit de leur composition, soit tirés d'œuvres du domaine public ou de licence compatible avec le wiki), y adjoindre des notes explicatives sur la langue (subtilités grammaticales, points de vocabulaire peu évidents, etc.), ajouter des traductions dans une ou plusieurs langues cibles (typiquement l'anglais, peut-être parfois l'interlingua par exemple si le texte lui-même est en anglais), peut-être aussi des traductions mot-à-mot, proposer des lectures à haute voix du texte (d'une voix claire et distincte sur les textes pour débutants ou bien avec un parler courant pour les plus expérimentés, éventuellement avec plusieurs accents), etc. Dans certaines langues, on ajouterait des informations auxiliaires au texte, disponibles sur demande (en japonais, par exemple, un bouton permettrait de faire apparaître sur chaque kanji sa lecture en kana, en russe on pourrait avoir l'accent tonique sur chaque mot, en arabe la vocalisation complète, en anglais la transcription phonétique, etc.). Optionnellement, chaque mot pourrait renvoyer vers le wiktionnaire, etc. Et bien sûr, tout serait organisé avec des niveaux de difficulté clairement indiqués.

La plus grande difficulté « politique » serait de savoir si, ou comment, on peut éviter que tout passe par l'anglais (notes grammaticales et traductions en anglais, etc.). Mais même pour faire quelque chose de complètement neutre, avoir des textes organisés par difficulté avec informations auxiliaires complètes (accentuation, phonétique, vocalisation : cf. ci-dessus) et des lectures enregistrées, ce serait fabuleusement utile.

Pourquoi, pourquoi, ce truc n'existe-t-il pas déjà ? Je ne suis pas le premier à y penser, tout de même ‽

J'avoue qu'il y a peut-être une difficulté technique dans l'utilisation du wiki, notamment pour ce que j'ai appelé l'affichange sur demande des informations auxiliaires (accentuation, phonétique, vocalisation) : il faudrait utiliser de la magie JavaScript apparemment pas évidente à unifier avec le principal moteur wiki sur le marché (mediawiki). Pour l'hébergement, Wikia est sans doute un bon endroit à envisager.

Des idées ?


Un chouïa de linguistique

J'en suis à la leçon quatorze de ma ma tentative pour apprendre un peu d'arabe, et les paris sont encore ouverts pour savoir jusqu'où je tiendrai. Pour l'instant, la langue (ou peut-être devrais-je dire, la présentation qui m'en est faite) est juste assez tordue pour attirer mon intérêt de geek sans être assez difficile pour me faire abandonner. Disons que, par rapport au même nombre de leçons en japonais, les questions de grammaire et d'écriture[#] sont beaucoup plus envahissantes : j'ai donc dû voir, pour l'instant, un vocabulaire de trente mots environ, et les phrases (qui parlent toutes d'écrivains qui écrivent un livre avec un stylo ou de filles qui sont sorties de la maison et allées au nouveau marché) ne sont vraiment pas passionnantes ; en plus, tous les verbes sont à l'accompli (= au passé) et tous les mots sont au singulier. C'est amusant, mon père avait lui aussi, dans le temps, essayé d'apprendre l'arabe[#2] avec la méthode Assimil : mais c'était l'ancienne édition (en deux volumes, dont tout le texte arabe était écrit à la main), et l'approche pédagogique était visiblement très différente, on vous plongeait tout de suite dans un texte un peu compliqué (une annonce faite dans un avion) déployant à peu près tout l'alphabet, alors que la nouvelle édition commence par une leçon d'une seule phrase, longue de deux mots et utilisant cinq lettres différentes : كَتَبَ الْكَاتِبُ (l'écrivain a écrit).


La prononciation de l'arabe semble un tantinet plus dure, pour un Français, que celle du japonais. L'argument naïf serait de dire que c'est parce qu'il y a plus de phonèmes, mais c'est un peu trompeur : je me suis livré à l'exercice stupide de compter le nombre de phonèmes dans quelques langues (compte tout à fait incertain vu que la notion de phonème est mal définie) : j'ai trouvé très approximativement :

LangueConsonnesVoyellesTotal phonèmes
Japonais165 + 5 longues26
Français2111 + 4 nasales36
Arabe293 + 5 lg./dipht.37
Anglais US2412 + 3 dipht.39
Allemand2215 + 3 dipht.40
Anglais GB2411 + 8 dipht.43
Hindi3014 + 10 nasales54

Bref, si le japonais est bas, l'arabe n'est pas spécialement haut non plus. L'anglais US est plus bas que l'anglais GB notamment parce que la prononciation du ‘r’ fait que beaucoup de choses qui s'analysent en diphtongues en en-GB deviennent voyelle+[ɹ] en en-US : je ne suis pas sûr que ce soit vraiment une différence profonde ; sinon je suis surpris de voir l'allemand aussi haut, mais c'est vrai que quand on pense à la différence de prononciation entre bieten, bitten, beten, Betten, [wenn sie] bäten, boten, Botten, etc., il y a quand même des choses. Le hindi est très haut notamment à cause de la double distinction sonore/sourde et aspirée/non-aspirée sur les consonnes. Bref, ce dénombrement est dénué de sens (je ne sais même pas comment on compterait pour une langue à tons). Mais ce serait quand même intéressant pour un esprit pervers d'inventer une langue qui ait les consonnes de l'arabe multipliées par les grades du hindi, plus les voyelles de l'anglais, et les tons du chinois cantonais : comme ça, tout se dirait en une seule syllabe et personne ne se comprendrait au téléphone.

Pour revenir à l'arabe, ce qui est difficile pour un francophone/anglophone/germanophone/…, c'est l'utilisation du pharynx, qui sert à prononcer les quatre ou cinq consonnes dites emphatiques (et qui sont, en fait, pharyngalisées), la fricative pharyngale sourde [ħ] (notée par la lettre ḥaʾˌ : ح), et le fameux ʿayn (ع) qui est parfois décrit comme la variante sonore de cette dernière, [ʕ], mais qui, si j'en crois le Manuel de l'Association phonétique internationale (lequel a le bon goût d'avoir un chapitre consacré à l'arabe), n'est en fait jamais prononcé de la sorte mais plutôt comme un coup de glotte pharyngalisé [ʔˤ] (et apparemment certaines prononciations de l'arabe en font une épilaryngale [ʢ]) [#3]. Alors, pour ma part, j'ai fait suffisamment de phonétique pour savoir comment réaliser, disons, une fricative épilaryngale sonore, mais malheureusement, prononcer une langue ce n'est pas juste prononcer une par une des articulations pures, encore faut-il les enchaîner[#4], et je ne sais pas si ce que je fais pour l'arabe est très crédible.

Je suis aussi intrigué par l'habitude de noter l'arabe sans les voyelles (ça ressemble à une décision qu'aurait pris quelqu'un qui voulait s'assurer que personne n'aurait le droit de lire quoi que ce soit sans avoir d'abord passé un temps fou à étudier la langue). Si je comprends bien, ça a pour conséquence que, exactement au contraire du français qui fait à l'écrit la distinction dans la phrase tu est sorti[e] selon que la personne à qui on parle est un homme (auquel cas on écrit tu es sorti) ou une femme (tu es sortie), l'arabe fait cette distinction à l'oral uniquement, écrivant خرجت pour prononcer [xaraʒta] ou [xaraʒti] selon qu'on s'adresse à un homme ou une femme. Il ne doit pas y avoir beaucoup de cas, en français, où on fait des distinctions à l'oral et pas à l'écrit.


En revanche, pour la syntaxe et la structure grammaticale, on retrouve beaucoup de choses étonnamment communes avec les langues indo-européennes (ce qui donne une certaine crédibilité à la thèse d'une origine commune des familles indo-européenne et sémitique). Par exemple, la notion de verbe, de nom et d'adjectif, avec un apparentement des adjectifs aux noms : tout ceci n'a rien de naturel[#5], d'ailleurs en japonais les adjectifs sont (au moins pour ceux en -い) nettement plus apparentés aux verbes qu'aux noms[#6], et d'autres langues ne marquent pas nettement (ou pas du tout ?) ces catégories grammaticales. Ou encore le fait de faire varier le verbe avec son sujet (ce qui n'est pas plus logique qu'avec son objet), et de différentier les cas nominatif et direct (= accusatif) plutôt que, par exemple, absolutif et ergatif. Encore plus frappante comme ressemblance entre les langues indo-européennes et les langues sémitiques est l'existence des trois nombres : singulier, duel et pluriel ; le duel a apparemment mieux survécu en arabe que dans la famille indo-européenne où il a essentiellement disparu des langues modernes (à part pour les pédants comme moi qui seraient capables de dire au cours d'un exposé de maths and now, combine this lemma with the previous two lemmate: the three lemmata, together, allow us to finish the proof), mais déjà la distinction singulier/pluriel n'a rien de vraiment naturel et, de nouveau, elle n'existe pas en japonais. On pourrait dire quelque chose de semblable du genre des mots.

Du coup, pour ce qui est du dépaysement sapirwhorfien, l'arabe n'est pas aussi bon que je l'espérais.


Par contre, pour ce qui est de faire le kéké avec Unicode, l'arabe est parfait. C'est un excellent test des polices vectorielles parce que les lettres changent de forme selon les lettres voisines (et font même quelques ligatures, quoique nettement moins que dans les langues brahmiques) et qu'en plus si on écrit les voyelles ça fait plein de caractères combinants qui doivent être correctement placés. Il y a plusieurs polices vectorielles libres qui s'en sortent plus ou moins bien, mais la seule qui a l'air de tout faire parfaitement est la police Scheherazade — elle ne fera pas de calligraphie sophistiquée mais elle ressemble comme deux gouttes d'eau — peut-être pas par hasard — à la police qui a servi à écrire l'Assimil dans lequel j'apprends (en plus ça m'a permis d'entendre parler des excellentes polices qu'offre le SIL — sur une Debianoïde faire apt-cache search ttf-sil et faire son choix).

L'écriture de la droite vers la gauche est perturbante sur un ordinateur : tout le monde est d'accord que la touche backspace doit effacer le caractère précédant le curseur (donc à droite si on écrit de droite à gauche) et delete le caractère suivant, mais que doivent faire les touches flèche gauche et flèche droite ? Parmi les logiciels que j'ai essayés, yudit (un éditeur pour texte Unicode pur, dont j'apprécie les méthodes d'entrée) a choisi, comme tout ce qui est basé sur GTK+, de faire que la flèche gauche aille effectivement vers la gauche et la flèche droite vers la droite — c'est plus simple à comprendre, mais ça veut dire que si on mélange des langues de directionalité contraire on va faire des sauts bizarres dans l'ordre logique du texte si on garde la flèche droite appuyée — alors qu'OpenOffice.org a choisi que la flèche vers la droite aille toujours en avant dans le texte, quitte à ce que le curseur fasse des bonds bizarres si on mélange des langues de directionalité contraire. Je suis curieux de savoir quels logiciels connus ont fait quels choix en la matière (et, d'ailleurs, lequel est le moins pénible à programmer). Il est aussi perturbant de voir le sens des parenthèses s'inverser (l'idée étant que les caractères ‘(’ et ‘)’ sont toujours des parenthèses ouvrante et fermante, mais dont l'apparence visuelle sera inversée dans un contexte droite-vers-gauche).


[#] La comparaison est faussée, cependant, du fait que l'Assimil japonais relègue l'apprentissage des kanji (= idéogrammes chinois) à un volume séparé dont l'étude est largement indépendante — l'idée étant de permettre à ceux qui le souhaitent d'apprendre le japonais uniquement parlé. Ça n'a sans doute pas beaucoup de sens de dire que, pour le débutant, le-japonais-avec-des-kana-au-dessus-de-chaque-kanji est apparemment plus facile que l'arabe-avec-toutes-les-voyelles-écrites, mézenfin, c'est l'impression que j'ai. ☺

[#2] Ma mère n'a cesse de se moquer de lui à ce sujet parce qu'un jour, il y a fort longtemps en Algérie, mon père a essayé de commander en arabe deux thés à la menthe sans sucre, le serveur a eu l'air estomaqué, a fait répéter, et a finalement apporté… deux cafés sucrés.

[#3] Si ces termes vous semblent chinois (ou arabes…), voyez notamment la page sur l'alphabet phonétique que j'avais commencée — et jamais finie — il y a assez longtemps. Les pharyngales s'articulent en rapprochant l'arrière de la langue de la cavité du pharynx, soit comme point d'articulation primaire (pour une pharyngale proprement dite) soit comme point d'articulation secondaire (pour une pharyngalisée) ; ce n'est pas très difficile à réaliser si on s'efforce d'utiliser la base de la langue pour obstruer partiellement le passage de l'air sans s'approcher du palais (on doit pouvoir voir la luette dans un miroir) : la position de la langue est à peu près celle de la voyelle [ɑ] (du français pâte, correctement prononcé, ou de l'anglais britannique laugh). Les épilaryngales, elles, s'articulent en rapprochant le pli aryépiglottique de l'épiglotte : ça c'est plus difficile à expliquer (déjà, voyez cette image et ce manuel pour l'emplacement des différentes parties du pharynx) ; il faut essayer d'obstruer partiellement le passage de l'air sans utiliser la langue et sans non plus donner un coup de glotte. (Moi je trouve que ça ressemble un peu à un râle d'agonisant, alors que les pharyngales font plutôt vomissement — désolé pour la poésie.) Il paraît que la langue aghul, parlée au sud du Daghestan, a l'idée complètement saugrenue de faire une distinction phonémique entre pharyngales et épilaryngales : donc, rappelez-moi de ne jamais essayer d'apprendre l'aghul. Enfin, les laryngales, c'est beaucoup plus facile ; d'ailleurs, si vous savez prononcer l'allemand, il y a un coup de glotte (c'est-à-dire une occlusive laryngale, [ʔ]) au début de chaque mot commençant par une voyelle (prononcez Deutschland ʔüber ʔalles et vous vous en rendrez bien compte), et en anglais comme dans beaucoup de langues il y a une fricative laryngale [h].

[#4] Pour dire le chat (أَلْقِطُّ), [alqitˤtˤu] il faut enchaîner une occlusive uvulaire sourde [q] et une occlusive dentale pharyngalisée et géminée [tˤtˤ] : ce n'est pas parce que je sais ce qu'il faut faire que j'y arrive (pour un francophone, c'est très casse-gueule).

[#5] Du point de vue sémantique, il est évident qu'il y aura des mots d'une langue qui désigneront une action (qui prendront éventuellement des compléments indiquant l'agent et le subissant de l'action) et d'autres une chose concrète (qui prennent typiquement moins de compléments), mais il n'y a pas de raison que cette distinction se traduise par une différentiation de catégories grammaticales (pas plus qu'on n'a besoin de catégories grammaticales distinctes pour distinguer les mots désignant des choses concrètes et ceux désignant des concepts abstraits). D'ailleurs, la distinction verbe/nom ne recouvre même pas cette distinction sémantique : si je dis brillante victoire des Romains sur les Carthaginois, le contenu sémantique du mot victoire est le même que ont vaincu dans les Romains ont brillamment vaincu les Carthaginois (pareil, forte pluie sur la campagne par rapport à il pleut fort sur la campagne), et le mode nominal ou verbal a plutôt pour fonction de déterminer l'aspect de l'énoncé (positif/déclaratif ou absolu/infinitif) que pour faire varier le sens du noyau de l'énoncé en question. Tout ça pour dire que la distinction verbe/nom n'a rien d'obligatoire (parmi mes nombreux projets inachevés, il y a celui de créer une langue qui éviterait complètement cette distinction tout en ayant une grammaire extrêmement régulière).

[#6] En japonais, pour mettre au passé une phrase comme l'arbre est grand (quelque chose comme 木は高いです), on met au passé l'adjectif grand (高い高かった). Pour un cours très geek-friendly (i.e., qui en souligne la logique) de la grammaire japonaise, je recommande le résumé de Tae Kim.


Essayons d'apprendre un peu d'arabe

Je suis un grand fan de la méthode Assimil, pas forcément que je la trouve excellente dans l'absolu, mais il me semble qu'elle convient très bien à quelqu'un qui, comme moi, a une mémoire essentiellement auditive[#] : la meilleure façon d'apprendre une langue serait donc bien d'écouter des phrases prononcées dans cette langue, en en comprenant le sens, en cherchant juste à activer les connexions neuronales entre les deux, jusqu'à ce que « ça rentre ». Et je pense qu'en allant au bout d'une méthode Assimil avec beaucoup de régularité, on doit arriver à un niveau pas complètement ridicule dans une langue donnée : c'est là que ça pèche, bien sûr, parce que je n'arrive pas à garder une motivation suffisante pour maintenir la régularité. Il faut y passer une bonne demi-heure par jour (et encore, je pense que c'est une minoration, parce que le temps de bien réécouter la leçon de la veille, écouter trois ou quatre fois la leçon du jour, s'exercer un peu à l'écriture, faire les exercices, préécouter la leçon du lendemain, trente minutes sont déjà justes), et, mine de rien, ce n'est pas facile à trouver.

En 2001, je n'étais arrivé qu'à la douzième[#2] leçon de l'Assimil hongrois — il est vrai que c'était un crash-course puisque je partais une semaine à Budapest et que je voulais au moins pouvoir prononcer correctement Nem beszélek magyarul![#3][#4] avant de partir, ce qui est tout de même un niveau qu'on dépasse à la 12e leçon. Il y a deux ans j'avais poussé un peu plus loin pour le japonais, en allant jusqu'à la 29e leçon (j'avais fait un an d'étude du japonais en grand débutant à l'ENS mais je n'avais strictement rien retenu). À la limite, qu'il ne m'en reste consciemment rien n'a aucune importance : mon but n'était pas vraiment d'apprendre du hongrois, respectivement du japonais, mais de me faire une représentation mentale de ces langues, d'assimiler un peu de leur structure (voire d'assouplir mes propres mécanismes de pensée). Bref, de transformer quelque chose de complètement opaque en quelque chose de certes toujours opaque mais où je peux imaginer de progresser.

Là je me suis acheté l'Assimil arabe[#5]. Pourquoi l'arabe ? Peut-être parce que je m'efforce à trouver des langues aussi éloignées que possible les unes des autres (auquel cas il faudrait sans doute que je programme ensuite le tamoul, le chinois et le swahili), de façon à avoir une petite image de la forteresse de Babel. Peut-être parce que c'est une langue importante parlée en France (mais l'argument est un peu pipo : l'arabe parlé en France est dialectal, et a priori ce n'est pas spécialement celui-là que je vais/veux apprendre). Ou peut-être parce que l'écriture en est absolument fascinante. Toujours est-il que je ne pense pas sérieusement arriver à un stade où je pourrais lire quoi que ce soit d'intéressant[#6], encore moins comprendre la langue parlée, mais l'idée est juste de picorer quelques notions sur comment l'arabe fonctionne, et de voir si ma patience va cette fois au-delà de la 29e leçon (en ce moment j'en suis à la 3e, où on voit des phrases aussi passionnantes que دَخَلَ الْوَلَدُ وَ دَرَسَl'enfant est entré et il a étudié).

[#] Et dont l'apprentissage des langues reste quelque chose de complètement théorique vu que je n'ai aucune intention de voyager pour essayer de m'en servir. C'est vrai que je suis un cas un peu spécial.

[#2] Pour comparaison, le nombre total de leçons d'une méthode Assimil a l'air de tourner entre 75 et 100 en général (mais en fait on est censé faire deux vagues d'apprentissage, ce qui veut dire qu'ils estiment qu'il faudra environ cinq ou six mois pour atteindre le niveau qu'ils proposent).

[#3] Je ne parle pas hongrois !

[#4] Mon directeur de thèse (qui partait au même congrès à Budapest) s'est mis au hongrois au même moment, et avec la même méthode, mais il a eu plus de persévérance que moi et il semble que maintenant il ne baragouine pas trop mal la langue.

[#5] Chose amusante, ils ont retiré du titre leur célèbre marque de fabrique : sans peine (même si la collection s'appelle encore ainsi). Est-ce qu'ils n'osent plus dire que c'est le cas ? Ou est-ce qu'ils sont tombés victimes de la fameuse blague :
— Il paraît que vous avez appris à jouer du violon en cinq leçons faciles.
— Oui, c'était les neuf mille neuf cent quatre-vingt-quinze suivantes qui étaient difficiles.

[#6] Surtout que l'arabe a (comme l'hébreu ou d'autres langues de la même famille) ce défaut pour les débutants que — à part pour écrire le Coran ou des textes poétiques — on n'y note normalement pas les voyelles brèves. Donc à moins de connaître la langue, celui qui aurait juste appris l'alphabet ne peut même pas prononcer un texte écrit. D'ailleurs, l'égyptien ancien — j'en ai fait un peu — est dans le même cas, sauf que, là, personne ne sait quelles sont les bonnes voyelles sauf dans un petit nombre de mots, donc on prononce tout ‘e’.


I hate English syntax

I hate English syntax because it's so persistently ambiguous.

Just minutes ago I was playing with the newly unveiled (and quite wonderful) Google Trends and I searched for Google itself. One of the news headlines that appeared in the list was:

Google shares sink

So I wondered, hmmm, what might be this kitchen sink that Google is sharing? Of course, a minute later, I realized that shares is not the verb but the subject and sink is not the object but the verb. Ah. This f*cking habit the English language has of simply juxtaposing words without indicating grammatical relationship (e.g., writing Google shares instead of Google's shares)—and it's particularly bad in newsspeak. I remember sometime back in 2000 I had come across a headline that read

U.S. appeals court asked to rule on Florida recount

—and I figured there were dozens of ways it could be parsed:

A U.S. court of appeal has been asked to rule concerning the recount in Florida.
The U.S. government appeals the court which had been asked to rule concerning the recount in Florida.
The American appeals, which the court has asked to rule over Florida, are recounting.
The American appeals, which the court has asked, are about to rule concerning the recount in Florida.

—and so on: any of the words appeals, asked, to rule and recount (and possibly even court) could be the main verb, and most of these possibilities give rise to at least two different parsings. I agree that most of them are meaningless, but still: it takes some effort to produce such an ambiguous sentence in French[#], whereas in English it sometimes seems that every zeusdamn sentence has a tendency to be parseable in many ways (even two-word ones like abuse pains!).

I can see why it would be most unwise for an international treaty to have English as only authoritative language! (There is the famous case of the 1967 UN resolution 242 which calls for withdrawal of Israel armed forces from territories occupied in the recent conflict, meaning, of course, from the territories, a reading clearly supported by the French version, retrait des forces armées israéliennes des territoires occupés lors du récent conflit, but which some have wished to read as from some territories. Not really the same sort of ambiguity as mentioned above, but I'm sure better examples could be found.)

On the other hand, garden-path sentences make for terrific jokes. I found this one quite hilarious when I first heard it:

Time flies like an arrow.
Fruit flies like a banana.

The best I have, in French, is la petite brise la glace, which can mean the small girl is breaking the window or the slight breeze is chilling her (similarly there is la bonne sauce la coupe, la grande alarme le modèle or le pilote ferme la porte, but none is very convincing). There is also the strange case of c'est après que c'est arrivé, which can mean two completely opposite things: it happened later or it was after it happened—but it's not really the same kind of ambiguity.


Mémoire auditive, japonais, récitation

J'ai une mémoire essentiellement auditive, au moins par opposition à visuelle (je ne parle pas de mémoire conceptuelle ou procédurale). Sans avoir fait des statistiques sérieuses, j'ai l'impression que c'est relativement rare : la plupart des gens me disent, quand ils retiennent un texte par cœur, qu'ils « voient » mentalement le texte écrit, alors que moi, indiscutablement, je l'« entends ». D'autres signes sont également clairs : si on me montre brièvement un arrangement de sept signes géométriques simples (dans le genre carré / rond / triangle / croix), je ne suis pas capable de les reproduire, alors que si on prononce sept syllabes dénuées de sens, je peux sans difficulté les répéter. (Je me tiens à sept, parce que c'est généralement admis comme le nombre le plus commun de cases de stockage pour ce genre de mémoire à court terme, et d'ailleurs peut-être lié à des raisons dans la structure du cortex.) Autre exemple : je connais une cinquantaine de décimales du nombre π (normalement je n'ai pas trop « la mémoire des chiffres », là je les ai apprises quand j'étais petit et jamais oubliées depuis), mais je les retiens comme une contine : trois virgule un quatre un cinq neuf deux six cinq trois cinq, etc., et je serais incapable de prononcer les chiffres groupés diffémment (comme : trois virgule quatorze quinze quatre-vingt-douze soixante-cinq trente-cinq, etc.) ou dans une autre langue (comme : three point one four one five nine two six five three five), alors que quelqu'un qui « verrait » les chiffres défiler pourrait plus facilement les lire dans une autre langue. Accessoirement, il m'est deux fois plus difficile de retenir un zéro qu'un autre chiffre, pour la raison totalement idiote qu'en français le mot « zéro » a deux syllabes !

La chose est assez frappante comme en ce moment (depuis trois-quatre semaines) j'essaie d'apprendre le japonais avec la méthode Assimil (dont le principe, qui me semble globalement très bon, est : commencez par écouter, répéter, lire et comprendre, ne cherchez pas spécialement à apprendre le vocabulaire, essayez juste de vous familiariser avec le texte jusqu'à ce qu'il vous semble naturel, puis passez à la leçon suivante) : la compréhension à l'écoute me vient vite, je retiens énormément de bouts de phrase ou de phrases entières[#], alors que l'écriture me reste décidément opaque (je me suis forcé à apprendre à lire au moins tous les kanas — ce qui ne veut pas dire que je ne mets pas un temps considérable à en reconnaître certains — mais je ne sais même pas les retracer, et pas non plus les kanjis sauf un ou deux). Il faut dire que, là, la méthode incite à la paresse parce qu'elle transcrit systématiquement tout en rōmaji (Hepburn) : du coup, je retape les textes sur mon ordinateur pour pouvoir le relire ensuite en écriture japonaise (mais avec ruby[#2]).

Une conséquence de ma mémoire auditive, c'est que je connais pas mal de textes par cœur. Je veux dire : je ne suis pas du tout du genre à retenir des tables de capitales des pays du monde (quelle est la capitale du Bhoutan ? Timphou — etc.). En revanche, des pages célèbres, des discours, des poèmes, des chansons, oui, tout à fait. Enfin, au total, pas énormément (sans doute moins qu'un acteur qui apprendrait par cœur les répliques d'une seule pièce), mais des textes extrêmement éclectiques. Souvent je n'ai même pas fait d'effort particulier pour apprendre (un jour par exemple je me suis rendu compte que je connaissais les quatre premiers paragraphes de la déclaration d'indépendance des États-Unis alors que je n'avais pas spécialement voulu, je m'étais contenté de la lire attentivement et d'en apprécier la construction). Et j'ai aussi tendance à ne pas oublier ce que j'ai appris : c'est ainsi que je connais encore par cœur un long passage de Pouchkine en russe que javais dû apprendre en terminale, alors qu'il y a beaucoup de mots dont j'ai oublié le sens (parce que le russe, lui, je l'ai beaucoup oublié). Globalement, les choses que j'apprends sont tout de même surtout des répliques théâtrales qui me semblent particulièrement fortes ou célèbres (comme le fameux monologue de la scène 1 de l'acte III de Hamlet ou les scènes 4 et 5 de l'acte I du Cid), des poèmes que j'aime lire et réciter, et, parmi les chansons, des hymnes (on a déjà eu un exemple ici, et, de peur qu'on me prenne pour un dangereux gauchiste parce que je connais les six strophes de l'Internationale (mais en français, pas en russe), je sais aussi les hymnes nationaux anglais, allemand, américain ou canadien) et des paroles de génériques idiots et quelques tubes en tous genres — parce que c'est conçu pour rester facilement en mémoire. D'ailleurs, c'est pareil pour les vers : je crois que j'ai une affinité particulière pour la structure de l'alexandrin, et décidément les sonnets de Heredia passent mieux que de la prose ; je suppose que quelqu'un qui a une mémoire surtout visuelle n'y trouverait pas trop de différence.

Tout ceci est tragiquement inutile, évidemment. Certes, une fois j'ai pu faire impression en maudissant quelqu'un à la manière d'Agrippine (dans Britannicus) : Tes remords te suivront comme autant de furies, etc. Mais généralement on s'aperçoit assez vite que mon répertoire est, finalement, assez pauvre, et que quand je cite Faust, ce sont essentiellement toujours les mêmes vers.

(Et, non, avant que quelqu'un me pose la question, je ne fais pas de théâtre, et je n'ai pas l'intention d'en faire. Même si plein de gens me disent que je devrais.)

[#] En fait, j'avais fait un an de japonais quand j'étais élève à l'ENS : c'est-à-dire que j'avais juste assisté aux cours sans rien chercher à retenir, et évidemment, du coup, il ne m'en est rien resté, à part quelques hiraganas et une unique phrase, この 着物 は 青く ありません — mais je précise que je sais seulement la prononcer, pas l'écrire, justement. Cela signifie : ce kimono n'est pas bleu. Un peu difficile à placer dans la conversation, surtout quand c'est la seule phrase qu'on connaisse.

[#2] Et j'en profite pour déplorer le fait que Mozilla/Firefox ne gère pas du tout le ruby ; et le pire, c'est que s'il y a moyen de contourner cette limitation en faisant du CSS un peu sioux (à base de display: inline-table et autres horreurs), une obscurité dans un point de la norme CSS (sur l'existence d'une ligne de base de certaines boîtes) et un changement d'interprétation dans certaines versions du Lézard font que je n'ai absolument pas réussi à produire un document qui s'affiche correctement partout (l'alignement vertical est aléatoire).


J'apprends à écrire

Aujourd'hui, j'ai débuté un cours d'égyptien hiéroglyphique. (Il est vrai que c'est désespérément banal d'apprendre l'égyptien hiéroglyphique : le sumérien, ou le maya, au moins, ce serait un peu original, pour rester dans la catégorie des langues mortes à l'écriture pénible, et dont la grammaire est au moins aussi intéressante et riche, mais bon, je m'efforce d'apprendre des choses simples et utiles.) Le prof est intéressant (même s'il a un peu tendance à digresser). Aujourd'hui il nous a surtout résumé l'histoire de l'Égypte ancienne et de son langage et donné quelques rudiments sur l'écriture (surtout les signes phonétiques unilitères), et nous avons appris à écrire, par exemple, Anubis (enfin, Jnpw ou quelque chose de ce goût-là) en hiéroglyphes. L'ennui, c'est que comme c'est bien de l'écriture hiéroglyphique et pas hiératique qu'il s'agit, prendre des notes est un peu difficile ; il nous dit qu'il faut que nous nous formions une véritable écriture et que nous ne fassions pas des dessins, mais j'ai du mal à écrire, par exemple, un percnoptère (le hiéroglyphe représentant un son dont la valeur n'est d'ailleurs pas claire). Faire des tables grammaticales risque d'être un petit peu pénible.

Vivement que les hiéroglyphes (au moins les plus simples) soient dans Unicode ! Ce qui, malheureusement, n'est pas trop près d'arriver, malgré la proposition (à mes yeux ignares tout à fait bien convaincante) faite par le phénoménal Michael Everson. Comme une des choses qui font que la question n'avance pas est le manque d'égyptologues pour évaluer les problèmes (et notamment juger la proposition en question), je vais sans doute aborder le prof qui nous fait le cours pour lui demander s'il connaît des gens qui seraient prêts à se mettre en contact avec le consortium Unicode.


Vieux slavon, alphabet cyrillique, et Unicode

Un de mes amis (que je ne dénoncerai pas — appelons-le mystérieusement R… — mais que tous ceux qui le connaissent auront reconnu), qui est au moins autant que moi passionné par Unicode et par les langages bizarres ou confidentiels, s'est pointé avant-hier soir (lors de la petite soirée où nous célébrions le nouvel an) avec une grammaire du slavon liturgique. Le slavon est la langue d'où le russe moderne dérive ; il a été fixé par écrit (ainsi que les alphabets cyrillique et glagolitique à cet effet — on ne sait pas quel est le rapport précis entre eux) dans la traduction de la bible des fameux moines (frères) Cyrille et Méthode qui ont évangélisé la Russie à la fin du IXe siècle. Du « vieux » slavon est dérivé à la fois le slavon liturgique de l'église orthodoxe et le russe moderne ainsi que, essentiellement, les autres langues slaves.

Le russe moderne est déjà une langue fort difficile (pour les non-Russes) à cause de la complexité de son système morphologique (par exemple, des huit cas de l'indo-européen primitif, six sont en usage vivant : nominatif, accusatif, génitif, datif, instrumental et locatif — seuls l'ablatif et le vocatif ont été perdus). Le slavon, il est à craindre, est encore plus compliqué (mais pas démesurément non plus : à titre d'exemple, il n'y a qu'un cas de plus qu'en russe moderne, le vocatif, qui n'est pas terriblement dur à former ; la conjugaison des verbes, cependant, est plus délicate car il existe de vrais temps du passé alors que le russe moderne n'a gardé qu'une sorte de participe utilisé comme passé ; et l'existence en slavon d'un duel à côté du singulier et du pluriel complique aussi la morphologie). Cependant, il n'est pas complètement incompréhensible par quelqu'un qui connaît le russe (à titre d'exemple, de même qu'avec mes vagues rudiments d'italien et ce que je sais de latin j'arrive à déchiffrer quelques mots de Dante, de même, en ayant fait un peu de russe et en ayant des notions de grec ancien — notamment de quoi lire l'original du nouveau testament — je repère bien des formes claires dans le texte slavon de la bible). Et on peut espérer qu'en retrouvant l'origine étymologique de certaines bizarreries du russe le langage apparaîtra comme plus clair et pas moins. Quoi qu'il en soit, si j'ai le temps, je regarderai d'un peu plus près à quoi tout cela ressemble. Il existe un cours de vieux slavon en ligne.

Une chose qui frappe en premier abord, en tout cas, est la multiplicité des signes. L'alphabet cyrillique moderne a trente-trois lettres (si on distingue le ‘Ё’ du ‘Е’, comme je tiens à le faire, même si quasiment tous les textes russes imprimés ou manuscrits de nos jours omettent les deux points sur la lettre quand elle est prononcée ‘o’[#]) ; avant la réforme d'orthographe de 1917, il en avait quelques-unes de plus, notamment ‘І’ (remplacé partout par ‘И’ — causant notamment la fusion[#2] des mots міръ, le monde, et миръ, la paix, ceci dit ces mots sont de toute façon de même origine) et ‘Ѣ’ (remplacé partout par ‘Е’ — causant notamment la fusion des mots ѣсть, manger, et есть, il y a), et il y avait nettement plus de ‘Ъ’ (signes durs) que maintenant. Cet alphabet russe provenait lui-même d'une réforme (ou, en fait, plusieurs réformes successives) effectuée(s) par Pierre le Grand pour transformer l'alphabet du slavon liturgique en un véritable alphabet à usage civil. Car le slavon a un nombre assez considérable de lettres : R et moi n'avons pas réussi à en savoir le nombre précis car les grammaires se contredisent assez quant à la question de savoir ce qui est ou n'est pas la même lettre, et d'ailleurs la langue elle-même est parfois un peu floue (même si l'orthographe en slavon liturgique est rigoureusement fixée, il n'est pas toujours clair ce qui est une lettre différente et ce qui est une simple variante de position, et il n'est pas non plus clair ce qui est une ligature entre deux lettres et ce qui est une lettre à part entière), et il y a eu des changements au passage entre le vieux slavon (écrit en glagolitique ou dans la forme la plus ancienne de l'alphabet cyrillique) et le slavon liturgique figé (disons, vers le XVIIe siècle). Toute cette histoire est racontée de façon très claire (au moins autant que possible vue la complexité de l'affaire) et très intéressante dans ce texte sur l'encodage de l'ancien alphabet cyrillique en TeX et en Unicode. Les relations entre les lettres (surtout les voyelles) sont très compliquées. Par exemple, le ‘Я’ du russe moderne dérive, à l'époque de Pierre, à la fois du petit yus (‘Ѧ’, qui lui a à peu près donné sa forme) et du a yodifié (environ ‘ІА’) ligaturé (malheureusement non codé séparément dans Unicode) — et même du petit yus yodifié (‘Ѩ’) ligaturé — ces signes étant distincts mais très fortement liés dans l'écriture du slavon. De même, le nombre de lettres du slavon prononcées approximativement ‘(i)é’, entre le ‘Є’ (à ne pas confondre avec le ‘Э’ récent, qui est une invention de l'époque de Pierre), le ‘Е’ (en slavon liturgique — peut-être une simple variante d'écriture de la lettre précédente, mais peut-être pas), le ‘Ѥ’ (version yodifiée-ligaturée de ‘Є’), le ‘Ѣ’ (qui a survécu jusqu'en 1917) et même le ‘Ь’ (qui est maintenant un signe mou, mais qui à l'époque du vieux slavon était une véritable voyelle), cela fait beaucoup. J'aimerais bien arriver à me faire une idée un peu plus précise de toutes ces évolutions (notamment concernant les yus petit et grand, les yer dur et doux, et le yat, qui sont vraiment les signes distinctifs du cyrillique).

Je me demande si, dans le catalogue des objets inutiles et bizarres que je possède, je ne vais pas rajouter une édition de la bible en slavon. En attendant, pour ceux qui veulent voir à quoi ça ressemble, voici un échantillon (la première ligne, par exemple, accents omis, donne : И вѣ всѧ зємлѧ ѹстнѣ єдинѣ, и гласъ єдинъ всѣмъ.).

[#] Cela donne des choses assez cocasses. Par exemple, le dirigeant de l'URSS de 1953 à 1964, (Никита Сергеевич) Хрущёв, est appelé Khrouchtchev en français (Khrushchev en anglais) et la manière dont on lit ce nom n'a à peu près aucun rapport avec la prononciation russe d'origine, à commencer par le fait que la voyelle finale, transcrite en ‘e’, est un ‘o’ (et il porte l'accent tonique alors que les Anglais le mettent sur la première syllabe).

[#2] Autre chose cocasse : il paraît que le titre d'un célèbre roman de Tolstoï s'écrit Война и Міръ, c'est-à-dire La Guerre et le Monde et pas Guerre et Paix comme ce serait si ça s'écrivait avec un ‘И’, même si, évidemment, le jeu de mot est volontaire. Rectification (2005-05-20) : c'est probablement faux.


How many vowels are there in English?

How anyone can master such a crazy language as English is beyond my understanding:

aaiau eeaeeeiiie ooaoeoiooou uui
[iː] theseleaftreereceivepolicepiece phoenix
[ɪ] prettysitsieve women busybuild
[ɪə] heredeardeerweirdfierce
[ɛ]manysaid beddeadGreenwichheifer bury
[ɛə]careair beartheir
[ɛɪ]aperain greatveil
[ʌ] sondoesbloodcouple sun
[aɪ] heighttimedie guide
[aʊ] house
[ɑː]fatherlaugh sergeantheart
[ɒ]wassausage dogcough
[ɔː]talkfault morebroaddoorthought
[ɔɪ] point
[ʊ] womanbookcould sugar
[ʊə] poortour sure
[uː] doshoefoodsoup rudefruit
[ɜː] herearthsir wordjourney turn
[əʊ] sosoaptoesoul

(This is for British so-called “received” pronunciation. Not every combination has been shown, and only stressed vowels have been tabulated.)

(mardi) · Pleine Lune

Num quis recte latine loquitur?

Je vais encore passer pour un pédant, un maniaque et un grincheux, mais j'aimerais comprendre pourquoi je vois si souvent « in nomine Satanis » ou encore « in nomine Satanas » (2000 et 1200 réponses sur Google, respectivement) alors que la forme latine correcte est « in nomine Satanæ » (12 réponses sur Google, que le ‘æ’ soit ligaturé ou non) : le génitif de « Satanas » (décliné comme un mot grec importé) est « Satanæ », comme attesté par la Vulgate (Apocalypse 2:13, Scio ubi habitas, ubi sedes est Satanae: et tenes nomen meum, et non negasti fidem meam et in diebus Antipas testis meus fidelis, qui occisus est apud vos ubi Satanas habitat). Ou alors « Satan » en faisant de ce mot un indéclinable.

D'accord, ça n'a absolument aucune espèce d'importance (je soupçonne que Satan réagit exactement autant quand on salue « in nomine Satanæ » que « in nomine Satanis » ou « in nomine Satanas »), mais c'est quand même lamentable de ne pas arriver à sortir trois mots de latin sans se planter quelque part.

Oui, je suppose que je suis un vieux grincheux. Ça doit être la chaleur.


Qual es iste lingua ?

Forsan vos demanda vos, in qual lingua iste texto es scribite ? Illo resimila como le italiano o le espaniol, mesmo le latino o le francese, ma non es alicuno de iste linguas : es un lingua inventate, etiam non le esperanto (plus confidential que isto !) ma l'interlingua, un specie de pot-pourri de omne linguas latin (o europee ?).

Pro alicunos, illo (io vole dicer, ille lingua) es un vaste burla, un riducule construction intellectual sin alicun interesse — e con un agenda moral dubitose (forsan promover le superioritate europee o qualcosa de iste gusto ?) ; e de omne modo, toto le mundo parla anglese (o lo parlara tosto…), no ? Pro le zelotes del interlingua, es un fabulose medio de assemblar le patrimonio commun del populos habente un lingua latin e de poter parlar insimul qualcosa altere que le anglese.

Io non ha un aviso sur le subjecto ; io crede que le interlingua es simplemente un lingua divertente, satis elegante (multo plus que le esperanto, in mi opinion) e sin pretension. Naturalmente, si nemo lo parla, su interesse practic es… debile ; ma io nunquam ha apprendite un lingua pro su interesse practic 😁, solmente pro the fun of it.

On debe admitter que le interlingua es facilissime a intender — etiam sin lo haber studiate — si on cognosce jam un lingua latin, o forsan mesmo le anglese : certemente plus facile (a intender) que le italiano, le espaniol o le francese. Le prova : vos ha intendite iste texto ben que vos probabilemente non lo cognosceva. 😉 Io me demanda (ma non seriosemente, reassecura vos) an io deberea scriber entratas de iste 'blog in interlinga plus tosto que in anglese pro los traducer postea in francese.