Je suis étonné de n'avoir apparemment jamais encore évoqué sur ce blog un de mes sujets de râlerie de prédilection : la façon dont on transcrit et translittère les langues étrangères. C'est-à-dire, la façon dont on écrit en alphabet latin les mots ou les noms propres d'une autre langue qui s'écrit naturellement dans un système d'écriture non-latin.
La distinction entre les mots transcription
et translittération
est normalement la suivante : le premier
signale que le processus a pour but de reproduire la
forme orale du mot transcrit (notamment pour donner des
indices à un locuteur non natif sur la façon de le prononcer), tandis
que le second a pour but de reproduire la forme écrite du
mot. Personnellement, je ne trouve pas cette distinction de
vocabulaire très utile, j'utilise transcription
et translittération
de façon à peu près interchangeable, et je
vais tenter d'argumenter que dans tous les cas il faut se concentrer
sur la version écrite du mot (quoique, dans le cas de langues comme le
chinois ou le japonais, ce serait une version écrite elle-même
transcrite, en bopomofo ou en kana — mais c'est un cas plutôt
inhabituel) et privilégier un système qui permet de
retrouver exactement et algorithmiquement la version
dans l'écriture d'origine à partir de la version en alphabet latin.
Autrement dit, si on veut faire la distinction
entre transcription
et translittération
, je vais tenter
d'argumenter qu'on ne doit jamais transcrire et toujours translittérer
(sauf les langues idéographiques, mais je considère quand même qu'il
s'agit de translittération), et qu'on doit chercher autant que
possible à rendre la langue fidèlement.
Pour prendre quelques exemples, considérons le premier ministre
russe Владимир
Владимирович
Путин : son nom se translittère
de façon standardisée (ISO 9) comme Vladimir
Vladimirovič Putin
(qui reflète fidèlement l'orthographe en
alphabet cyrillique), tandis que la transcription utilisée typiquement
en français, par exemple dans la presse, sera : Vladimir
Vladimirovitch Poutine
(si ce n'est qu'en général on n'écrit pas
le patronyme), en écrivant tch
pour donner une vague idée que
cela se prononce [tɕ] ou [tʃʲ], ou
pour
marquer le son [u] comme en français, et en ajoutant un e
à la
fin (qui n'existe absolument pas dans l'original) pour que les
Français ne soient pas tentés de transformer son nom en quelque chose
ressemblant à putain
. Tout ceci est très peu systématique. Et
encore ai-je choisi un nom posant très peu de problèmes ; l'ancien
premier secrétaire du parti communiste
soviétique Никита
Сергеевич
Хрущёв est habituellement
appelé Nikita Sergueïevitch Khrouchtchev
en français, et
officiellement translittéré Nikita Sergeevič Hruŝëv
en ISO 9 : ce qui est amusant, c'est que ni
l'écriture Khrouchtchev
(qu'un français lit comme
[krutʃɛf]) ni celle Hruŝëv
(que je n'ose pas
vraiment imaginer comment il lirait) ne donnent une idée de la
prononciation
de Хрущёв
,
[xrʊˈʃʲːof]. C'est bizarre, notamment,
cette façon d'écrire ev
alors qu'on prétend transcrire la
prononciation, qui est clairement of
.
Un exemple en arabe, maintenant : tout le monde a entendu parler,
et très souvent ces dix dernières années, d'un mot qui en arabe
signifie la base
, la
fondation
: ألقاعدة
ou, avec les
voyelles, أَلْقَاعِدَةُ
,
et qu'on transcrit comme al-Qaeda
(ou peut-être
plutôt al-Qaïda
en français). La translittération
officielle ISO 233-1
est : ʾˈalqaʾʿidaẗu
avec les
voyelles, ou bien ʾˈlqʾʿdẗ
sans
elles. Je conviens que c'est un peu excessivement psychorigide que de
suivre à ce point-là l'écriture arabe. Une translittération moins
maniaque et qui me semble néanmoins raisonnablement fidèle serait
quelque chose comme al-Qāʿidaẗ
[ajout
() : en fait, c'est précisément la
translittération ISO 233-2, largement utilisée par
les bibliothèques en France, et elle me semble parfaite :
voir cette
fiche de la BNF par exemple, ainsi
que cette page
Wikipédia en français]. L'enjeu est
ici un peu différent du russe : pour le russe, la question est de
savoir dans quelle mesure on doit essayer (de façon bordélique et
incohérente) de mettre le lecteur francophone sur la bonne piste de la
prononciation ou au contraire refléter fidèlement l'orthographe en
cyrillique ; pour l'arabe, de toute façon la prononciation par le
non-initié sera sensiblement la même, il s'agit plutôt de se demander
si on doit écrire des signes en plus qui indiquent l'existence de
certaines lettres (notamment le ʿ
pour transcrire la
lettre ع ou ʿayn, et l'astucieux ẗ
, qui est
un ‘t’ tréma si vous ne le voyez pas, pour transcrire le
ة ou tāʾ marbūṭaẗ) ou la
distinction entre des lettres qui apparaîtraient identiques pour le
francophone (comme entre س et ص, sīn et
ṣād). Le fait est que le ʿ en arabe est une
consonne à part entière, et que le s et le ṣ n'ont rien à
voir : retirer ce genre d'information non seulement fait violence à la
langue (ce qui est quelque chose d'un peu abstrait), mais,
concrètement, embête très gravement les gens qui essaient d'apprendre
cette langue et qui ont besoin de cette information pour apprendre les
mots en question (évidemment ceux qui parlent déjà arabe arriveront à
retrouver ce qui est ainsi dénaturé) ; et ce, sans gain aucun, parce
que de toute façon quelqu'un qui voit un ʿ et ne sait pas
comment le prononcer va simplement l'ignorer comme si ce signe n'était
pas du tout là. Voilà pour quoi je fais attention à bien écrire les
prénoms ʿAlī ou Saʿīd s'il ne s'agit pas de
quelqu'un qui l'aurait francisé. Évidemment, la question de la
francisation se pose souvent, par exemple je ne suis pas certain qu'il
soit indispensable de parler de l'ʿIrāq (ou, en fait, du
coup, du ʿIrāq), ceci dit on n'est pas obligé de
dénaturer ça non plus en Irak alors que le ‘q’ ne choque
en rien la langue française.
L'argument maître que j'utilise pour justifier qu'on doit
privilégier le reflet fidèle de l'écriture (et donc, si on tient à
cette distinction, translittérer plutôt que transcrire) est ce que
j'appelle l'argument de Budapest et de Berlin. Car le hongrois et
l'allemand sont des langues qui s'écrivent en alphabet latin :
personne n'aurait l'idée d'écrire les capitales de la Hongrie et de
l'Allemagne autrement que Budapest
et Berlin
. Pourtant,
il n'aura échappé à personne que si on voulait donner l'importance à
la prononciation, on devrait écrire Boudapecht
et Berline
. L'argument est donc : si on admet que, pour les
langues naturellement écrites en alphabet latin, on garde l'écriture
d'origine (y compris avec ses diacritiques, d'ailleurs) même si cela
conduit les Français à en faire une prononciation totalement fausse,
il n'y a pas de raison de ne pas faire la même chose pour les langues
écrites dans d'autres alphabets, c'est-à-dire, reproduire l'écriture
et ne pas se soucier de la façon dont les gens massacreront la
prononciation.
Bien entendu, les noms très célèbres se font naturaliser. Ce n'est
alors ni une transcription ni une translittération, c'est une
acquisition dans la langue : la capitale de la Pologne, en français,
s'appelle Varsovie, alors qu'il n'y avait pas de raison de ne pas
garder Warszawa
(ou tenter de refléter la prononciation avec un
truc comme Varchava
) ; de même, on a des noms spéciaux
pour Londres
(London
), Munich
(München
), Anvers
(Antwerpen
), Florence
(Firenze
), Lisbonne
(Lisboa
), Copenhague
(København
), etc. Dans certains cas il est d'ailleurs possible
qu'une forme internationale du nom reflète mieux l'histoire ou
l'étymologie de celui-ci que la forme locale (qui n'est d'ailleurs pas
unique, certaines villes étant bilingues), ce qui est logique vu que
les mots s'abîment quand on s'en sert trop : on peut ainsi défendre
l'idée que Florence
est un nom plus correct pour la ville que
la façon dont les Italiens l'ont massacré, ou que Cologne
est
mieux que Köln
(et pour ne pas que je laisse l'idée que ce sont
les Français qui ont toujours raison, il se peut très bien
que Marseilles
, comme les Anglais l'appellent, soit mieux
que Marseille
). Donc quand je parle de l'argument de Budapest
et de Berlin, ce ne sont pas tellement Budapest et Berlin eux-mêmes
(ces noms sont certainement naturalisés, même si ça ne se voit pas)
mais le fait que tous les noms hongrois, allemands, etc.,
célèbres ou obscurs, sont reproduits à l'identique, ou au pire sans
leurs diacritiques, quand on les utilise en français : on n'écrit
pas Charkeuzy
pour essayer de rendre le patronyme de l'actuel
président de la république française, même quand on parle de son
père (nagybócsai) Sárközy Pál
(dont on peut reconnaître que son
nom n'est pas francisé au fait que son prénom ne devient
pas Paul
).
La position qui consiste à dire si c'est de l'alphabet latin, on
recopie, si non on transcrit la prononciation
n'est pas seulement
incohérente et bizarre : elle donne des résultats loufoques si la
langue peut naturellement s'écrire en plusieurs alphabets. Va-t-on
s'amuser à donner du turc une transcription phonétique avant Atatürk
pour recopier l'alphabet latin après lui ? Va-t-on s'amuser à
transcrire phonétiquement le serbe depuis le cyrillique et à
reproduire le croate dans son alphabet latin d'origine, ce qui
pourrait donner au même mot ou nom deux écritures totalement
différentes ? Et une fois qu'on admet que le serbe doit se
translittérer en alphabet latin comme si c'était du croate, il semble
plus qu'étonnant de faire quelque chose de complètement différent avec
le bulgare ou le russe.
Quelle que soit la langue, le but le plus important doit être de ne
pas perdre d'information, ou d'en perdre le moins possible en
respectant la logique de la langue (et notamment, ne pas mélanger deux
lettres sous prétexte que les Français n'entendraient pas la
différence, si ces lettres sont bien séparées dans la langue
d'origine). En général, il existe des systèmes de translittération
standard qui accomplissent très bien ces buts, tout en restant
raisonnablement lisibles : ce
site donne un aperçu très complet de ce qui existe ; en général,
les standards de l'ISO sont bons en la matière
(ISO 9 pour le russe me semble
satisfaisant, ISO 15919 pour les langues indiennes
est très bon et d'ailleurs très largement utilisé ;
et ISO 233-1 pour l'arabe est un peu trop
illisible, mais on le rend beaucoup plus clair en
utilisant abusivement des notations comme ā, ī et ū pour
les voyelles longues au lieu des aʾ, iy et uw prévus par le standard
et qui reflètent rigoureusement l'écriture [ajout
() : en fait, en utilisant
justement ISO 233-2, cf. l'ajout ci-dessus]).
Reste le problème des langues utilisant partiellement ou totalement des idéogrammes : dans ce cas il faut consentir à réduire l'information de façon intelligente, puisqu'on ne peut pas décemment garder chaque nuance des idéogrammes.
Pour l'ancien égyptien, il existe une réduction standard qui préserve les signes unilitères, convertit les bilitères et trilitères (et leur(s) éventuel(s) complément(s) phonétique(s)) en suite d'unilitères, et omet purement et simplement les signes utilisés de façon idéographique ou comme marqueurs de catégories : on peut alors transcrire 𓇋 comme j (et son doublement 𓇌 comme y), 𓂝 comme ꜥ ou ʿ, 𓅱 comme w, 𓃀 comme b, et ainsi de suite ; et notamment, 𓄿 comme ꜣ, un caractère assez spécial en lui-même (U+A723 LATIN SMALL LETTER EGYPTOLOGICAL ALEF), que j'écris moi-même comme un chiffre 3, et qui n'existe dans l'alphabet latin que pour translittérer le percnoptère égyptien. Je crois que tous les égyptologues utilisent cette translittération standard (dont je ne crois même pas qu'elle ait de nom particulier), probablement pour minimiser le nombre de fois où ils doivent effectivement dessiner des scarabées et des cobras.
Pour le japonais, il existe aussi une réduction standard, ce sont
les kanas, qui sont un syllabaire et qui reflètent la prononciation.
La difficulté n'est pas complètement close pour autant, car il existe
plusieurs façons de translittérer les kanas. La façon la plus
courante, qui s'appuie sur la prononciation réelle de ces kanas,
s'appelle
la transcription
Hepburn, tandis que la plus systématique, celle qui suit la
régularité du syllabaire,
s'appelle Nihon-siki
et est standardisée sous le nom d'ISO 3602 strict.
Cette dernière garantit qu'il n'y aura pas de perte
d'information[#] dans le passage
des kanas à leur translittération, et semble donc préférable ; elle
est aussi nettement plus logique, et si on imagine que le japonais ait
un alphabet, ce serait certainement dans selon les idées de ce système
de translittération : le fait qu'un ‘t’ suivi d'un
‘u’ se prononce de façon affriquée, un peu comme si
c'était ‘tsu’, serait certainement une règle de
prononciation non reflétée dans l'orthographe, et il semble donc
logique de translittérer tu
(comme en Nihon-siki) et
non tsu
(comme en Hepburn) pour つ, même si ce dernier
reflète mieux la prononciation. D'un autre côté, il est vrai que les
occidentaux se sont énormément habitués à voir le japonais transcrit
en Hepburn, et les défauts de ce système sont moins criants que le
non-système utilisé pour transcrire le russe.
[#] Hum, à lire la description, j'ai quand même un doute : wikipédia semble dire que la voyelle longue transcrite ‘ô’ en Nihon-siki peut correspondre à l'allongement soit par un お soit par un う, ce qui du coup casserait tout. Mais c'est bizarre d'inventer un système suivant scrupuleusement les kanas et de le casser juste sur ce point précis.
Pour le chinois mandarin, il n'existe pas de système d'écriture
naturel autre qu'idéographique, mais il existe un alphabet à des fins
d'éducation ou de documentation,
le bopomofo
(zhùyīn fúhào) qui reflète la prononciation (au moins dans
une large mesure), et un système de translittération en alphabet
latin,
le pīnyīn,
qui reproduit sans perte d'information l'écriture en bopomofo. Comme
il se trouve que c'est effectivement ce système qui est utilisé dans
la plupart des cas pour translittérer le chinois (hors des cas
spécifiques des mots qui ont été naturalisés, comme Pékin
ou Canton
), je ne peux qu'exprimer ma satisfaction que, dans
une langue au moins, les choses aient tourné correctement. Du moins
si on fait l'effort d'écrire correctement les marques tonales sur la
translittération en pīnyīn, ce qui n'est malheureusement
pas toujours le cas (je fais la même remarque que plus haut pour
l'arabe : sans doute les gens connaissant bien la langue peuvent-ils
deviner les choses qui manquent, comme un francophone serait capable
de lire un texte en français où une lettre sur quatre aurait été
effacée, mais il faut au moins penser à ceux qui apprennent la langue
translittérée). On reproche parfois au pīnyīn de noter
‘b’ et ‘p’ des sons qui sont en fait tous les
deux sourds (la différence se faisant au niveau de l'aspiration), et
donc de donner l'idée fausse que le nom de la capitale chinoise
北京 (transcrite Běijīng
) commencerait
par le son [b] alors que c'est un [p] ; je trouve que c'est un
reproche idiot : de toute façon les gens émettront des sons ayant un
rapport assez ténu avec ceux de la langue d'origine, il semble plus
important de reproduire les contrastes par des contrastes
ayant un sens pour eux (notamment entre ‘b’ et
‘p’) que les sons dans l'absolu.
☛ Pour résumer
(TL;DR
), voici mes recommandations
concrètes pour choisir un système de
transcription/translittération :
- chercher à privilégier autant que possible la forme écrite ou du moins, si ce n'est pas possible, la forme écrite dans une écriture secondaire plus ou moins phonétique (comme un syllabaire),
- chercher à translittérer sans perte d'information, de façon systématique et algorithmique,
- chercher à refléter la logique (par exemple les parallélismes) de la langue source dans la translittération,
- abandonner l'idée de donner une indication utile sur la prononciation, idée qu'on abandonne déjà pour les langues écrites en alphabet latin (on essaiera cependant de ne pas être inutilement absurde), mais chercher si possible à reproduire les contrastes phonétiques par des contrastes phonétiques vaguement analogues,
- regarder du côté des translittérations ISO, elles sont généralement bien faites.