David Madore's WebLog: Quelques réflexions sur les translittérations

Je suis étonné de n'avoir apparemment jamais encore évoqué sur ce blog un de mes sujets de râlerie de prédilection : la façon dont on transcrit et translittère les langues étrangères. C'est-à-dire, la façon dont on écrit en alphabet latin les mots ou les noms propres d'une autre langue qui s'écrit naturellement dans un système d'écriture non-latin.

La distinction entre les mots transcription et translittération est normalement la suivante : le premier signale que le processus a pour but de reproduire la forme orale du mot transcrit (notamment pour donner des indices à un locuteur non natif sur la façon de le prononcer), tandis que le second a pour but de reproduire la forme écrite du mot. Personnellement, je ne trouve pas cette distinction de vocabulaire très utile, j'utilise transcription et translittération de façon à peu près interchangeable, et je vais tenter d'argumenter que dans tous les cas il faut se concentrer sur la version écrite du mot (quoique, dans le cas de langues comme le chinois ou le japonais, ce serait une version écrite elle-même transcrite, en bopomofo ou en kana — mais c'est un cas plutôt inhabituel) et privilégier un système qui permet de retrouver exactement et algorithmiquement la version dans l'écriture d'origine à partir de la version en alphabet latin. Autrement dit, si on veut faire la distinction entre transcription et translittération, je vais tenter d'argumenter qu'on ne doit jamais transcrire et toujours translittérer (sauf les langues idéographiques, mais je considère quand même qu'il s'agit de translittération), et qu'on doit chercher autant que possible à rendre la langue fidèlement.

Pour prendre quelques exemples, considérons le premier ministre russe Владимир Владимирович Путин : son nom se translittère de façon standardisée (ISO 9) comme Vladimir Vladimirovič Putin (qui reflète fidèlement l'orthographe en alphabet cyrillique), tandis que la transcription utilisée typiquement en français, par exemple dans la presse, sera : Vladimir Vladimirovitch Poutine (si ce n'est qu'en général on n'écrit pas le patronyme), en écrivant tch pour donner une vague idée que cela se prononce [tɕ] ou [tʃʲ], ou pour marquer le son [u] comme en français, et en ajoutant un e à la fin (qui n'existe absolument pas dans l'original) pour que les Français ne soient pas tentés de transformer son nom en quelque chose ressemblant à putain. Tout ceci est très peu systématique. Et encore ai-je choisi un nom posant très peu de problèmes ; l'ancien premier secrétaire du parti communiste soviétique Никита Сергеевич Хрущёв est habituellement appelé Nikita Sergueïevitch Khrouchtchev en français, et officiellement translittéré Nikita Sergeevič Hruŝëv en ISO 9 : ce qui est amusant, c'est que ni l'écriture Khrouchtchev (qu'un français lit comme [krutʃɛf]) ni celle Hruŝëv (que je n'ose pas vraiment imaginer comment il lirait) ne donnent une idée de la prononciation de Хрущёв, [xrʊˈʃʲːof]. C'est bizarre, notamment, cette façon d'écrire ev alors qu'on prétend transcrire la prononciation, qui est clairement of.

Un exemple en arabe, maintenant : tout le monde a entendu parler, et très souvent ces dix dernières années, d'un mot qui en arabe signifie la base, la fondation : ألقاعدة ou, avec les voyelles, أَلْقَاعِدَةُ, et qu'on transcrit comme al-Qaeda (ou peut-être plutôt al-Qaïda en français). La translittération officielle ISO 233-1 est : ʾˈalqaʾʿidaẗu avec les voyelles, ou bien ʾˈlqʾʿdẗ sans elles. Je conviens que c'est un peu excessivement psychorigide que de suivre à ce point-là l'écriture arabe. Une translittération moins maniaque et qui me semble néanmoins raisonnablement fidèle serait quelque chose comme al-Qāʿidaẗ [ajout (2015-09-11) : en fait, c'est précisément la translittération ISO 233-2, largement utilisée par les bibliothèques en France, et elle me semble parfaite : voir cette fiche de la BNF par exemple, ainsi que cette page Wikipédia en français]. L'enjeu est ici un peu différent du russe : pour le russe, la question est de savoir dans quelle mesure on doit essayer (de façon bordélique et incohérente) de mettre le lecteur francophone sur la bonne piste de la prononciation ou au contraire refléter fidèlement l'orthographe en cyrillique ; pour l'arabe, de toute façon la prononciation par le non-initié sera sensiblement la même, il s'agit plutôt de se demander si on doit écrire des signes en plus qui indiquent l'existence de certaines lettres (notamment le ʿ pour transcrire la lettre ع ou ʿayn, et l'astucieux ẗ, qui est un ‘t’ tréma si vous ne le voyez pas, pour transcrire le ة ou tāʾ marbūṭaẗ) ou la distinction entre des lettres qui apparaîtraient identiques pour le francophone (comme entre س et ص, sīn et ṣād). Le fait est que le ʿ en arabe est une consonne à part entière, et que le s et le ṣ n'ont rien à voir : retirer ce genre d'information non seulement fait violence à la langue (ce qui est quelque chose d'un peu abstrait), mais, concrètement, embête très gravement les gens qui essaient d'apprendre cette langue et qui ont besoin de cette information pour apprendre les mots en question (évidemment ceux qui parlent déjà arabe arriveront à retrouver ce qui est ainsi dénaturé) ; et ce, sans gain aucun, parce que de toute façon quelqu'un qui voit un ʿ et ne sait pas comment le prononcer va simplement l'ignorer comme si ce signe n'était pas du tout là. Voilà pour quoi je fais attention à bien écrire les prénoms ʿAlī ou Saʿīd s'il ne s'agit pas de quelqu'un qui l'aurait francisé. Évidemment, la question de la francisation se pose souvent, par exemple je ne suis pas certain qu'il soit indispensable de parler de l'ʿIrāq (ou, en fait, du coup, du ʿIrāq), ceci dit on n'est pas obligé de dénaturer ça non plus en Irak alors que le ‘q’ ne choque en rien la langue française.

L'argument maître que j'utilise pour justifier qu'on doit privilégier le reflet fidèle de l'écriture (et donc, si on tient à cette distinction, translittérer plutôt que transcrire) est ce que j'appelle l'argument de Budapest et de Berlin. Car le hongrois et l'allemand sont des langues qui s'écrivent en alphabet latin : personne n'aurait l'idée d'écrire les capitales de la Hongrie et de l'Allemagne autrement que Budapest et Berlin. Pourtant, il n'aura échappé à personne que si on voulait donner l'importance à la prononciation, on devrait écrire Boudapecht et Berline. L'argument est donc : si on admet que, pour les langues naturellement écrites en alphabet latin, on garde l'écriture d'origine (y compris avec ses diacritiques, d'ailleurs) même si cela conduit les Français à en faire une prononciation totalement fausse, il n'y a pas de raison de ne pas faire la même chose pour les langues écrites dans d'autres alphabets, c'est-à-dire, reproduire l'écriture et ne pas se soucier de la façon dont les gens massacreront la prononciation.

Bien entendu, les noms très célèbres se font naturaliser. Ce n'est alors ni une transcription ni une translittération, c'est une acquisition dans la langue : la capitale de la Pologne, en français, s'appelle Varsovie, alors qu'il n'y avait pas de raison de ne pas garder Warszawa (ou tenter de refléter la prononciation avec un truc comme Varchava) ; de même, on a des noms spéciaux pour Londres (London), Munich (München), Anvers (Antwerpen), Florence (Firenze), Lisbonne (Lisboa), Copenhague (København), etc. Dans certains cas il est d'ailleurs possible qu'une forme internationale du nom reflète mieux l'histoire ou l'étymologie de celui-ci que la forme locale (qui n'est d'ailleurs pas unique, certaines villes étant bilingues), ce qui est logique vu que les mots s'abîment quand on s'en sert trop : on peut ainsi défendre l'idée que Florence est un nom plus correct pour la ville que la façon dont les Italiens l'ont massacré, ou que Cologne est mieux que Köln (et pour ne pas que je laisse l'idée que ce sont les Français qui ont toujours raison, il se peut très bien que Marseilles, comme les Anglais l'appellent, soit mieux que Marseille). Donc quand je parle de l'argument de Budapest et de Berlin, ce ne sont pas tellement Budapest et Berlin eux-mêmes (ces noms sont certainement naturalisés, même si ça ne se voit pas) mais le fait que tous les noms hongrois, allemands, etc., célèbres ou obscurs, sont reproduits à l'identique, ou au pire sans leurs diacritiques, quand on les utilise en français : on n'écrit pas Charkeuzy pour essayer de rendre le patronyme de l'actuel président de la république française, même quand on parle de son père (nagybócsai) Sárközy Pál (dont on peut reconnaître que son nom n'est pas francisé au fait que son prénom ne devient pas Paul).

La position qui consiste à dire si c'est de l'alphabet latin, on recopie, si non on transcrit la prononciation n'est pas seulement incohérente et bizarre : elle donne des résultats loufoques si la langue peut naturellement s'écrire en plusieurs alphabets. Va-t-on s'amuser à donner du turc une transcription phonétique avant Atatürk pour recopier l'alphabet latin après lui ? Va-t-on s'amuser à transcrire phonétiquement le serbe depuis le cyrillique et à reproduire le croate dans son alphabet latin d'origine, ce qui pourrait donner au même mot ou nom deux écritures totalement différentes ? Et une fois qu'on admet que le serbe doit se translittérer en alphabet latin comme si c'était du croate, il semble plus qu'étonnant de faire quelque chose de complètement différent avec le bulgare ou le russe.

Quelle que soit la langue, le but le plus important doit être de ne pas perdre d'information, ou d'en perdre le moins possible en respectant la logique de la langue (et notamment, ne pas mélanger deux lettres sous prétexte que les Français n'entendraient pas la différence, si ces lettres sont bien séparées dans la langue d'origine). En général, il existe des systèmes de translittération standard qui accomplissent très bien ces buts, tout en restant raisonnablement lisibles : ce site donne un aperçu très complet de ce qui existe ; en général, les standards de l'ISO sont bons en la matière (ISO 9 pour le russe me semble satisfaisant, ISO 15919 pour les langues indiennes est très bon et d'ailleurs très largement utilisé ; et ISO 233-1 pour l'arabe est un peu trop illisible, mais on le rend beaucoup plus clair en utilisant ~~abusivement~~ des notations comme ā, ī et ū pour les voyelles longues au lieu des aʾ, iy et uw prévus par le standard et qui reflètent rigoureusement l'écriture [ajout (2015-09-11) : en fait, en utilisant justement ISO 233-2, cf. l'ajout ci-dessus]).

Reste le problème des langues utilisant partiellement ou totalement des idéogrammes : dans ce cas il faut consentir à réduire l'information de façon intelligente, puisqu'on ne peut pas décemment garder chaque nuance des idéogrammes.

Pour l'ancien égyptien, il existe une réduction standard qui préserve les signes unilitères, convertit les bilitères et trilitères (et leur(s) éventuel(s) complément(s) phonétique(s)) en suite d'unilitères, et omet purement et simplement les signes utilisés de façon idéographique ou comme marqueurs de catégories : on peut alors transcrire 𓇋 comme j (et son doublement 𓇌 comme y), 𓂝 comme ꜥ ou ʿ, 𓅱 comme w, 𓃀 comme b, et ainsi de suite ; et notamment, 𓄿 comme ꜣ, un caractère assez spécial en lui-même (U+A723 LATIN SMALL LETTER EGYPTOLOGICAL ALEF), que j'écris moi-même comme un chiffre 3, et qui n'existe dans l'alphabet latin que pour translittérer le percnoptère égyptien. Je crois que tous les égyptologues utilisent cette translittération standard (dont je ne crois même pas qu'elle ait de nom particulier), probablement pour minimiser le nombre de fois où ils doivent effectivement dessiner des scarabées et des cobras.

Pour le japonais, il existe aussi une réduction standard, ce sont les kanas, qui sont un syllabaire et qui reflètent la prononciation. La difficulté n'est pas complètement close pour autant, car il existe plusieurs façons de translittérer les kanas. La façon la plus courante, qui s'appuie sur la prononciation réelle de ces kanas, s'appelle la transcription Hepburn, tandis que la plus systématique, celle qui suit la régularité du syllabaire, s'appelle Nihon-siki et est standardisée sous le nom d'ISO 3602 strict. Cette dernière garantit qu'il n'y aura pas de perte d'information[#] dans le passage des kanas à leur translittération, et semble donc préférable ; elle est aussi nettement plus logique, et si on imagine que le japonais ait un alphabet, ce serait certainement dans selon les idées de ce système de translittération : le fait qu'un ‘t’ suivi d'un ‘u’ se prononce de façon affriquée, un peu comme si c'était ‘tsu’, serait certainement une règle de prononciation non reflétée dans l'orthographe, et il semble donc logique de translittérer tu (comme en Nihon-siki) et non tsu (comme en Hepburn) pour つ, même si ce dernier reflète mieux la prononciation. D'un autre côté, il est vrai que les occidentaux se sont énormément habitués à voir le japonais transcrit en Hepburn, et les défauts de ce système sont moins criants que le non-système utilisé pour transcrire le russe.

[#] Hum, à lire la description, j'ai quand même un doute : wikipédia semble dire que la voyelle longue transcrite ‘ô’ en Nihon-siki peut correspondre à l'allongement soit par un お soit par un う, ce qui du coup casserait tout. Mais c'est bizarre d'inventer un système suivant scrupuleusement les kanas et de le casser juste sur ce point précis.

Pour le chinois mandarin, il n'existe pas de système d'écriture naturel autre qu'idéographique, mais il existe un alphabet à des fins d'éducation ou de documentation, le bopomofo (zhùyīn fúhào) qui reflète la prononciation (au moins dans une large mesure), et un système de translittération en alphabet latin, le pīnyīn, qui reproduit sans perte d'information l'écriture en bopomofo. Comme il se trouve que c'est effectivement ce système qui est utilisé dans la plupart des cas pour translittérer le chinois (hors des cas spécifiques des mots qui ont été naturalisés, comme Pékin ou Canton), je ne peux qu'exprimer ma satisfaction que, dans une langue au moins, les choses aient tourné correctement. Du moins si on fait l'effort d'écrire correctement les marques tonales sur la translittération en pīnyīn, ce qui n'est malheureusement pas toujours le cas (je fais la même remarque que plus haut pour l'arabe : sans doute les gens connaissant bien la langue peuvent-ils deviner les choses qui manquent, comme un francophone serait capable de lire un texte en français où une lettre sur quatre aurait été effacée, mais il faut au moins penser à ceux qui apprennent la langue translittérée). On reproche parfois au pīnyīn de noter ‘b’ et ‘p’ des sons qui sont en fait tous les deux sourds (la différence se faisant au niveau de l'aspiration), et donc de donner l'idée fausse que le nom de la capitale chinoise 北京 (transcrite Běijīng) commencerait par le son [b] alors que c'est un [p] ; je trouve que c'est un reproche idiot : de toute façon les gens émettront des sons ayant un rapport assez ténu avec ceux de la langue d'origine, il semble plus important de reproduire les contrastes par des contrastes ayant un sens pour eux (notamment entre ‘b’ et ‘p’) que les sons dans l'absolu.

☛ Pour résumer (TL;DR), voici mes recommandations concrètes pour choisir un système de transcription/translittération :

chercher à privilégier autant que possible la forme écrite ou du moins, si ce n'est pas possible, la forme écrite dans une écriture secondaire plus ou moins phonétique (comme un syllabaire),
chercher à translittérer sans perte d'information, de façon systématique et algorithmique,
chercher à refléter la logique (par exemple les parallélismes) de la langue source dans la translittération,
abandonner l'idée de donner une indication utile sur la prononciation, idée qu'on abandonne déjà pour les langues écrites en alphabet latin (on essaiera cependant de ne pas être inutilement absurde), mais chercher si possible à reproduire les contrastes phonétiques par des contrastes phonétiques vaguement analogues,
regarder du côté des translittérations ISO, elles sont généralement bien faites.