Les communications papier
dont je veux parler c'est, bien
sûr, l'écriture, mais le titre de cette entrée s'abrège
en CCCP, ce qui n'a absolument rien à voir
avec СССР qui est l'abréviation de Союз
Советских Социалистических Республик
, autrement dit, de
l'URSS. Selon votre navigateur et les polices installées
sur votre ordinateur, le ‘C’ de Club Contexte
(U+0043 LATIN CAPITAL LETTER C) et
le ‘С’ de Советский Союз
(U+0421 CYRILLIC CAPITAL LETTER ES)
apparaîtront peut-être, ou peut-être pas, comme identiques. Ce sont
néanmoins des caractères différents pour Unicode, comme vous pouvez le
vérifier en recherchant ‘C’ dans cette page, ou en copiant-collant le
caractère et en le recherchant dans Google, ou quelque chose de ce
genre. (Hum, à vrai dire, ce serait peut-être le jeu de décider
que Club Contexte
s'abrège en СС
avec un ‘С’ cyrillique
— cyrillique
, pas сyrillique
. Mais comme le ‘С’
cyrillique est plutôt une ‘S’, enfin, se prononce quelque chose
ressemblant à /s/, je devrais dire l'‘С’ cyrillique
: il va
falloir que j'interroge le Club Contexte en Сection Politique pour
fixer les détails.)
Bref, vous aurez compris l'idée : ce qu'est une lettre est quelque
chose d'assez délicat. Un matheux a envie de dire qu'une lettre est
une classe d'équivalence pour la relation d'équivalence être la
même lettre
, mais qu'est-ce que c'est que cette relation
d'équivalence, justement ?
Unicode doit régulièrement prendre des
décisions to conflate or to disunify?, autrement
dit, décider si on doit considérer que deux machins sont ou non la
même lettre. Et cette décision n'a souvent rien d'évident, toutes
sortes de problèmes peuvent survenir dans les deux sens, et il n'y a
souvent pas de bonne solution. Notamment parce que la
relation être la même lettre
a furieusement tendance à ne pas
être une relation d'équivalence : elle n'est pas transitive (une
langue pourrait considérer que foo et bar sont la même lettre, une
autre que bar et qux sont la même lettre, et une troisième que foo et
qux ne sont pas du tout la même lettre).
Voici quelques unes des choses, en vrac, que j'ai apprises en me documentant à gauche et à droite sur Unicode et sur l'histoire des formes d'écriture. On va voir que le Club Contexte aime beaucoup s'amuser avec l'écriture. (Quasiment chaque paragraphe dans ce qui suit raconte sa propre petite histoire et peut être lu indépendamment des autres ; j'ai essayé de trouver un fil directeur, mais c'est trop difficile, il n'y a juste aucune logique dans cette collection de faits.)
Commençons par une question basique : faut-il considérer que la première lettre des alphabets latin, grec et cyrillique, c'est-à-dire ‘A’, ‘Α’ et ‘А’ sont la même lettre ? Dans Unicode, ce sont U+0041 LATIN CAPITAL LETTER A, U+0391 GREEK CAPITAL LETTER ALPHA et U+0410 CYRILLIC CAPITAL LETTER A, c'est-à-dire qu'Unicode a tranché pour désunifier.
D'un côté, considérer que non (comme le fait Unicode), i.e., que ce
sont trois lettres différentes, est très confusant pour les gens qui
ne voient aucune différence (notamment sur leur écran), cela peut être
la cause de toutes sortes de problèmes informatiques, notamment
d'attaques délibérées. (gооgle.com
, par exemple, avec
deux U+043E CYRILLIC SMALL LETTER O,
a été acheté par Google pour ne pas qu'on puisse y rediriger
malicieusement les gens qui pensaient aller à google.com
— et de toute façon votre navigateur vous montrera probablement le
Punycode xn--ggle-55da.com
si vous y allez — mais on ne
peut pas éliminer tous les risques de ce genre. Remarquez que
quasiment tous les langages de programmations acceptent, maintenant,
des identificateurs en Unicode, et j'attends le moment où quelqu'un
aura malicieusement introduit un trou de sécurité quelque part en
nommant une variable locale ‘а’ (U+0430
CYRILLIC SMALL LETTER A) pour cacher le fait qu'elle ne masque
pas, du coup, une variable ‘a’ (U+0061
LATIN SMALL LETTER A) de portée plus lointaine.) Ou à défaut
de bugs, simplement de petites tracasseries : si je veux vérifier que
je ne me suis pas trompé dans l'ordre de mes ‘A’, ‘Α’ et ‘А’, c'est
plus fastidieux que si je devais trier ‘A’, ‘B’ et ‘C’.
D'un autre côté, considérer que ‘A’, ‘Α’ et ‘А’ sont la même lettre serait très gênant quand il s'agit de passer en minuscules, par exemple (‘a’ et ‘α’ diffèrent certainement, et ‘а’ diffère peut-être aussi), ou si on veut développer des polices spécifiques à l'un ou l'autre des alphabets. (L'affichage du grec sur mon navigateur est souvent rendu moche par le fait que j'ai des polices qui ont juste le ‘π’, probablement parce qu'il sert plus souvent que d'autres, et comme je ne sais pourquoi mon navigateur tend à préférer cette police, je vois souvent cette seule lettre dans une police visiblement différente. Imaginez à quel point la lecture du cyrillique serait moche si les lettres communes à l'alphabet latin étaient prises dans une police prévue pour l'alphabet latin et les autres dans une autre.) Et je vais revenir plus bas sur la question de l'écriture cursive.
Et encore, au moins ‘A’, ‘Α’ et ‘А’ ont historiquement la même
origine : ce sont des lettres cognates ou dérivées les unes des
autres. (Disons que le alpha grec archaïque — savoir si c'est le même
que le alpha grec classique et moderne est encore une question
épineuse — dérive du ‘𐤀’ U+10900 PHOENICIAN
LETTER ALF phénicien et a donné naissance au ‘A’, enfin, au
‘𐌀’ U+10300 OLD ITALIC LETTER A
italique puis au ‘A’ latin et bien plus tard au ‘A’ cyrillique.)
Bref, ‘A’, ‘Α’ et ‘А’ sont « essentiellement » la même lettre, ou
trois versions de la même lettre dans trois alphabets différents.
Mais si on considère ‘P’, ‘Ρ’ et ‘Р’
(U+0050 LATIN CAPITAL LETTER
P, U+03A1 GREEK CAPITAL LETTER
RHO et U+0420 CYRILLIC CAPITAL
LETTER ER), il y a clairement un intrus, et c'est le premier,
parce que l'alphabet latin a eu l'idée complètement bizarre de
déformer son pi (‘Π’) jusqu'à avoir la forme d'un rhô (‘Ρ’) (la forme
intermédiaire est représentée par
‘𐌐’, U+10310 OLD ITALIC LETTER PE,
si vous avez ça dans vos polices). Quand je lis СССР
, même en
parlant français, je lis ça quelque chose comme
comme ès-ès-ès-èr
, certainement pas cé-cé-cé-pé
. On
aurait pu imaginer amalgamer les lettres qui ont la même origine et
des sons analogues (donc ‘A’, ‘Α’ et ‘А’) sans amalgamer celles qui
ont des origines différentes ou des sons très différents (autre
exemple, le ‘Н’ cyrillique, U+041D CYRILLIC
CAPITAL LETTER EN, est en fait clairement un ‘N’ écrit
bizarrement, malgré sa ressemblance avec le ‘H’ latin et le ‘Η’ (êta)
grec).
Si vous voulez des exemples plus épineux de choix à faire entre
amalgamer et désunifier, il y en a au sein de l'alphabet latin :
‘I’ et ‘i’ sont-ils la majuscule et la minuscule de la même lettre ?
Pour la plupart des langues du monde, oui, mais pas pour le turc, qui
considère fort logiquement que ‘I’ est la majuscule de ‘ı’
(U+0131 LATIN SMALL LETTER DOTLESS
I) tandis que la majuscule de ‘i’ est ‘İ’
(U+0130 LATIN CAPITAL LETTER I WITH DOT
ABOVE). Bon, heureusement, pour Unicode, être la majuscule
et la minuscule de la même lettre
n'est pas formellement défini
(pas de façon normative, en tout cas), mais ça a quand même la
conséquence déplaisante que la conversion de majuscule en minuscule ou
vice versa dépend de la langue. Pour ma part, j'aurais bien proposé
d'avoir trois lettres différentes (six caractères en tout) : un
‘I’ dont la minuscule est ‘i’, qui sert dans beaucoup de langues, un
‘I’ dont la minuscule est ‘ı’, qui sert uniquement en turc, et un ‘İ’
dont la minuscule est ‘i’, qui sert aussi uniquement en turc. Mais
Unicode, dans son infinie sagesse, en a décidé autrement :
probablement par compatibilité avec un standard antérieur
(typiquement, ISO-8859-9) qui manquait de place
pour mettre trop de fantaisies et qui ne voulait pas semer la
confusion chez les utilisateurs turcs qui n'auraient pas compris
pourquoi il y avait deux ‘i’ différents et deux ‘I’ différents (à
chaque fois un pour le turc et un pour toutes les autres langues).
Bref, ce n'est pas facile !
Unicode traîne parfois des pieds pour accepter de désunifier des lettres (dans l'autre sens, une fois qu'elles sont désunifiées, c'est impossible de les réunifier). Par exemple, il y a maintenant dans le bloc cyrillique supplémentaire un ‘Ԛ’ (U+051A CYRILLIC CAPITAL LETTER QA) et un ‘Ԝ’ (U+051C CYRILLIC CAPITAL LETTER WE) pour des lettres qui servent dans l'écriture cyrillique du kurde : ils datent d'Unicode 5.1 c'est-à-dire d'avril 2008. Avant ça, je me souviens d'avoir vu passer des engueulades pour savoir si c'étaient vraiment des lettres cyrilliques ou des lettres latines utilisées au milieu de lettres cyrilliques. Comment savoir ? Est-ce que la question a même un sens ?
La source du plus grand nombre de maux de tête vient certainement de
l'Alphabet
Phonétique International (API). Celui-ci a été créé par des
linguistes qui ont bidouillé comme ils ont pu avec des glyphes venant
essentiellement de l'alphabet latin, les tournant parfois dans
différents sens pour obtenir de nouveaux caractères (c'était plus
facile que de faire créer des symboles entièrement nouveaux). Il y a
un nombre incroyable de bizarreries. Le caractère ‘ɟ’
(U+025F LATIN SMALL LETTER DOTLESS J WITH
STROKE, représentant l'occlusive palatale voisée qu'on a
tendance à imaginer comme quelque part entre ‘g’ et ‘d’ et qui est en
gros le ‘gy’ du hongrois) était évidemment à l'origine un ‘f’
retourné, et quelqu'un a trouvé malin de le réinterpréter, au moins
pour ce qui est de son nom Unicode, comme un ‘j’ sans point avec une
barre, ce qui est quand même assez créatif (mais peut-être vaguement
sensé compte tenu du son qu'il représente) ; par contre, de façon
décevante, le caractère ‘ɥ’ (U+0265 LATIN
SMALL LETTER TURNED H, qui représente la semi-voyelle notée par
la lettre ‘u’ dans le mot français fuite
quand ce n'est pas un
Belge qui le prononce), à savoir un ‘h’ inversé, n'a pas été
réinterprété comme un ‘u’ avec une barre allongée à droite. Bon, mais
l'alphabet phonétique distingue, par exemple, ‘a’ et ‘ɑ’ (pour noter
des voyelles plus ou moins antérieures, par exemple la distinction
entre patte
et pâte
en français pour les gens qui la
font encore) : le premier est un
bête U+0061 LATIN SMALL LETTER A,
mais Unicode a décidé d'appeler le second
un U+0251 LATIN SMALL LETTER ALPHA,
un alpha latin
, ce qui est quand même un concept original. De
même, le symbole ‘ɣ’ qui note la fricative vélaire voisée (de
l'espagnol amigo
ou au début du
néerlandais graag
) est
un U+0263 LATIN SMALL LETTER GAMMA,
un gamma latin
, que le Club Contexte vous rappelle qu'il ne
faut d'ailleurs pas confondre avec la voyelle ‘ɤ’
(U+0264 LATIN SMALL LETTER RAMS
HORN), les cornes de bélier
également appelées bébé
gamma
. Il y a encore un upsilon latin
(‘ʊ’, U+028A LATIN SMALL LETTER
UPSILON), un phi latin
(‘ɸ’, U+0278 LATIN SMALL LETTER PHI)
et quelques autres ; mais bizarrement, le symbole ‘ɛ’ qui note le son
français de bête
(ou de fait
par opposition à fée
quand ce n'est pas un méridional qui parle) est, dans
Unicode, U+025B LATIN SMALL LETTER OPEN
E, je ne sais pas pourquoi ce n'est pas un epsilon
latin
; toujours est-il qu'il n'est pas unifié avec le ‘ε’ de
l'alphabet grec (U+03B5 GREEK SMALL LETTER
EPSILON). Il y avait aussi un iota latin
(‘ɩ’, U+0269 LATIN SMALL LETTER
IOTA), mais il ne fait plus partie de l'API (en
gros, il a été remplacé par ‘ɪ’, U+026A
LATIN LETTER SMALL CAPITAL I, sans doute pour des raisons de
lisibilité), ce qui ne l'a pas empêché de rentrer dans Unicode parce
qu'il faut bien pouvoir noter les textes qui s'en servent encore (mais
aurait-il fallu l'identifier avec ‘ɪ’ ?). On pourrait s'imaginer
qu'Unicode a pris la décision que les symboles phonétiques sont
toujours « latins », mais ce n'est pas le cas non plus : ayant inventé
l'alpha latin, le gamma latin, l'upsilon latin, le phi latin et
le e ouvert
latin qui ressemble bigrement à un epsilon latin,
Unicode a cependant renoncé à inventer un thêta latin, et utilise ‘θ’
(U+03B8 GREEK SMALL LETTER THETA),
le vrai thêta grec, pour la fricative dentale sourde (le th
de
l'anglais thing
), et de même ‘χ’
(U+03C7 GREEK SMALL LETTER CHI), le
vrai chi grec, pour la fricative vélaire sourde (le pendant sourd du
‘ɣ’, lequel est un gamma latin
, est donc un chi grec
).
La logique m'échappe.
Autre bizarrerie : en alphabet phonétique, le ‘g’ utilise le glyphe
simple qui est le typique dans les polices italiques ou linéales,
c'est-à-dire sans l'espèce de fioriture qui boucle dans tous les sens
(en anglais on parle de loop-tail g
pour la
variante avec fioriture par opposition à fish hook
g
pour la variante sans fioriture, je ne connais pas d'équivalents
français donc je vais continuer à dire fioriture
). Si on tape
dans une police qui n'a pas cette fioritude, c'est tentant de taper un
simple ‘g’ (U+0067 LATIN SMALL LETTER
G) ; mais si on a une police qui a cette fioriture, il faut
utiliser un caractère différent : Unicode a créé le ‘ɡ’
(U+0261 LATIN SMALL LETTER SCRIPT G)
spécifiquement pour le ‘g’ sans fioriture (fish hook
g
) dénotant l'occlusive vélaire voisée dans l'API,
mais il est considéré comme acceptable d'utiliser un simple ‘g’ qui
sera visuellement identique dans certaines polices.
Pourquoi ne pas avoir décidé que l'alphabet phonétique fût un
alphabet complètement différent de l'alphabet latin, sans rapport avec
lui ? Ç'eût été une possibilité : elle aurait eu ceci de déplaisant
qu'on aurait dû écrire la transcription phonétique d'un mot français
comme papa
avec des lettres graphiquement identiques et
représentant les mêmes sons mais qui auraient été informatiquement des
caractères différents ; pourquoi pas, à la limite. L'ennui c'est
qu'il y a plein de langues, notamment africaines subsahariennes, dont
l'écriture, inventée par des européens, se fait en alphabet latin mais
en incorporant des symboles de l'alphabet phonétique pour représenter
toutes sortes de sons qui n'étaient pas évidemment transcrivables en
alphabet latin. Donc l'alphabet phonétique est à moitié passé de jeu
de symboles à véritable alphabet. Et pour ajouter de la complication
à la complication, ces langues ont souvent inventé des majuscules à
des caractères qui, en alphabet phonétique, n'avaient pas de casse :
par exemple, le ‘ʃ’ (U+0283 LATIN SMALL
LETTER ESH), qui dénote le son ch
de chat
en
français, et qui est à l'origine un ‘s’ long (ce qui n'empêche pas le
‘s’ long d'exister aussi dans Unicode comme
‘ſ’, U+017F LATIN SMALL LETTER LONG
S, sans parler du signe d'intégrale qu'il a aussi donné) a reçu
une majuscule dans certaines langues, à savoir
‘Ʃ’, U+01A9 LATIN CAPITAL LETTER
ESH, qu'il a été décidé de ne pas amalgamer avec le ‘Σ’ grec
(U+03A3 GREEK CAPITAL LETTER SIGMA)
parce que, visiblement, la minuscule n'est pas la même. (Bon, je n'ai
pas réussi à savoir quelle langue, if any,
utilise réellement le esh comme lettre : les majuscules ont disparu de
la version 1982 de l'alphabet africain de référence publié par
l'UNESCO, et le esh lui-même a servi en bambara
mais a été remplacé par l'orthographe ‘sh’. Cependant, il semble
qu'au moins certaines orthographes du mbembe utilisent le alpha latin
minuscule et majuscule, d'où un
‘Ɑ’ U+2C6D LATIN CAPITAL LETTER
ALPHA.) Quel chaos !
Pour le grec, il y a une autre chose intéressante à mentionner :
certains caractères grecs ont plusieurs variantes assez différentes.
Par exemple, le ‘φ’ (phi) peut s'écrire soit d'un seul trait qui finit
en bas mais ne monte jamais en haut, soit de façon quasi identique à
la majuscule donc comme un rond barré verticalement ; du point de vue
de la langue grecque, ces deux glyphes sont interchangeables, et il
faudrait les amalgamer, mais les mathématiciens, qui sont joueurs,
utilisent les deux différemment (et parfois au sein d'une même
formule) ; Unicode a inventé un symbole pour désigner spécifiquement
la variante d'écriture du ‘φ’ qui ressemble à la majuscule, ‘ϕ’
(U+03D5 GREEK PHI SYMBOL) ; en plus,
comme le Club Contexte a encore frappé, sous TeX, la forme considérée
comme « normale » par Unicode se note \varphi
tandis que
la forme considérée comme « variante » par Unicode (‘ϕ’) se
note \phi
, et d'ailleurs Unicode a commencé par prendre
la convention de TeX avant de changer d'avis. Il y a de même deux
formes d'écriture du thêta, la forme normale ‘θ’ (\theta
en TeX) et la variante ‘ϑ’ (U+03D1 GREEK
THETA SYMBOL,
\vartheta
en TeX) pas tout à fait close. Il y a deux
formes d'écriture du rhô, la forme normale ‘ρ’ (\rho
en
TeX) et la variante ‘ϱ’ (U+03F1 GREEK RHO
SYMBOL,
\varrho
en TeX) qui ressemble un peu à un ‘e’. Il y a
aussi deux formes d'écriture du pi, la forme normale ‘π’
(\pi
en TeX) et la variante ‘ϖ’
(U+03D6 GREEK PI SYMBOL,
\varpi
en TeX) ou « pi alexandrin », que certains
prennent pour un ‘ω’ surmonté d'un tilde. Parfois on distingue aussi
deux formes d'écriture du kappa, la forme normale ‘κ’
(\kappa
en TeX) et la variante ‘ϰ’ symétrique par rapport
à son centre (U+03F0 GREEK KAPPA
SYMBOL), mais cette fois \varkappa
n'existe pas
par défaut dans TeX parce que ce serait trop facile. Il y a de
deux formes d'écriture du bêta, la forme normale ‘β’
(\beta
en TeX) qui descend en bas et la variante ‘ϐ’
(U+03D0 GREEK BETA SYMBOL) recourbée
sur elle-même, et une fois de plus \varbeta
n'existe pas
par défaut dans TeX ; ceci étant, cette variante ne sert pas en
mathématiques (enfin, il y aura toujours un matheux fou pour faire des
fantaisies, mais ça ne sert pas normalement), mais certains
hellénistes écrivent l'une ou l'autre forme selon que le bêta est
initial ou non (je ne sais pas de quand et d'où date cette convention
typographique). Il est déjà plus standard de faire une différence
graphique sur le sigma selon qu'il est ou non final : ‘σ’
(U+03C3 GREEK SMALL LETTER SIGMA)
est la forme normale et ‘ς’ (U+03C2 GREEK
SMALL LETTER FINAL SIGMA) est la forme finale, cette fois-ci
c'est considéré comme une vraie lettre et pas comme un symbole
mathématique. (Mais on aurait pu considérer que c'était le boulot de
la police et pas de celui qui tape le texte, de mettre des sigma
finaux en fin de mot.)
Il arrive qu'Unicode regrette ses décisions. Ils sont restés très longtemps sur l'idée que le copte s'écrit en alphabet grec (c'est-à-dire d'amalgamer les alphabets grec et copte) avant de finalement faire machine arrière et de créer un alphabet copte séparé. En revanche, ils restent sur l'idée que l'alphabet phénicien est le même que l'alphabet paléo-hébraïque (je ne parle pas de l'alphabet hébreu actuel, qui dérive de l'alphabet araméen, quoique l'alphabet araméen a sa propre existence dans Unicode, mais l'alphabet hébreu ancien, qui dérive ou peut-être même coïncide avec, l'alphabet phénicien). C'est le problème des alphabets qui sont naturellement en correspondance, souvent « presque » en bijection : quand doit-on considérer qu'il s'agit de variantes du même alphabet et quand doit-on considérer qu'il s'agit d'alphabets différents ?
Les alphabets des langues brahmiques de l'Inde, qui sont tous cousins sinon frères, ont des correspondances naturelles entre eux : ces correspondances sont reflétées dans la disposition Unicode où l'ajout et la soustraction de 128 (0x80) permet de passer d'un alphabet à l'autre (par exemple ‘प’ U+092A DEVANAGARI LETTER PA, ‘প’ U+09AA BENGALI LETTER PA, ‘ਪ’ U+0A2A GURMUKHI LETTER PA, ‘પ’ U+0AAA GUJARATI LETTER PA, ‘ପ’ U+0B2A ORIYA LETTER PA, ‘ப’ U+0BAA TAMIL LETTER PA, ‘ప’ U+0C2A TELUGU LETTER PA et ‘ಪ’ U+0CAA KANNADA LETTER PA). Tous les alphabets ne sont pas également complets, mais l'alphabet devanāgarī est le plus complet, donc on doit pouvoir transcrire toutes ces langues dans cet alphabet (et il semble même que ça doive servir parce que certains caractères du bloc unicode devanāgarī sont spécifiquement annotés comme servant à transcrire, par exemple, une langue dravidienne). On pourrait très bien imaginer décider qu'il existe un unique alphabet « brahmique » qui est écrit dans des polices différentes selon la langue dont il est question.
Si cette idée semble saugrenue, considérons l'allemand il n'y a pas
si longtemps : il était convenu que cette langue s'écrivît dans un
style d'écriture — je ne sais pas si on doit le qualifier d'alphabet,
justement — appelé gothique
ou fraktur
(voir plus bas
sur l'usage du mot gothique
). On pouvait tout à fait défendre
l'idée que le fraktur était un alphabet différent de l'alphabet latin,
qui se trouve être en correspondance naturelle avec lui, mais de la
façon dont les alphabets devanāgarī et bengali sont en
correspondance. Le
débat a fait rage entre les partisans d'écrire l'allemand en
écriture gothique/fraktur et les partisans de l'écrire en écriture
latine/antiqua, les nazis étaient d'abord favorable au fraktur puis
ont brutalement retourné leur veste, et à la fin de la seconde guerre
mondiale l'allemand s'écrivait en alphabet latin (ou faut-il dire en
police antiqua ?). Mais, comme le runique (ᚠᚢᚦᚨᚱᚴ) qui est pourtant
assez bien en correspondance avec l'alphabet latin, le gothique aurait
très bien pu entrer dans Unicode séparément de l'alphabet latin…
Alors là il faut que je revienne un peu au Club Contexte, qui a
plein de précisions à apporter. (1º) Il y a bien des caractères
gothiques (fraktur) dans Unicode, par exemple le
‘𝔖’ U+1D516 MATHEMATICAL FRAKTUR
CAPITAL S que j'ai utilisé tout
récemment pour désigner le groupe symétrique. Mais il ne s'agit
pas de lettres, il s'agit de symboles
mathématiques : donc si
j'écris 𝔣𝔯𝔞𝔨𝔱𝔲𝔯
,
je n'ai pas écrit le mot fraktur
en fraktur, j'ai écrit une
succession (peut-être un produit ?) de symboles mathématiques qui se
trouvent venir de l'alphabet fraktur (donc mon usage pour le groupe
symétrique est légitime, mais pas pour écrire de l'allemand). Vous
vous doutez bien que plein de gens s'assoient sur cette subtilité et
brûleront certainement en enfer pour avoir perverti le Saint Standard
d'Unicode. (2º) Il y a aussi un alphabet gothique dans Unicode, mais
c'est le vrai alphabet gothique, celui qui sert à écrire la langue
gothique (la langue des goths, quoi), pas le style gothique d'écriture
qui servait pour l'allemand (et pas que pour l'allemand). La langue
gothique est certes germanique mais d'une branche de la famille
germanique différente de celle qui a donné l'allemand : ce n'est pas
l'ancêtre de l'allemand. Remarquez que cet alphabet gothique est lui
aussi raisonnablement en correspondance avec l'alphabet latin ou
runique, donc je pourrais tout à fait lancer l'idée d'écrire
l'allemand en alphabet gothique juste pour que tout le monde
soit bien
confus. 𐍅𐌰𐍂𐌿𐌼
𐌳𐌴𐌽𐌽
𐌽𐌹𐌲𐌷𐍄 ? (3º) Ayant
compris que l'alphabet gothique ne désigne pas ce que les
gens imaginent, vous vous dites peut-être que vous allez parler
de police gothique
pour éviter l'ambiguïté ? Fatale erreur, le
Club Contexte a prévu ce coup-là aussi : pour les typographes, une
police gothique
ou grotesque
comme Franklin
Gothic ou Akzidenz-Grotesk, c'est une police
linéale, c'est-à-dire, essentiellement, sans empattement, ou un style
particulier de linéale. (Je me souviens avoir été tout heureux de
découvrir un nom en gothic
dans une liste de jeux de polices
sur mon ordinateur quand j'étais petit, et tout déçu de découvrir
qu'elle ne collait franchement pas avec ce que j'avais envie
d'appeler gothique
.) Je ne sais pas comment on est arrivé à un
tel degré de confusion, mais le Club Contexte a vraiment fait fort,
là.
(En fait, le mot gothique
est un roman à lui tout seul, qui
veut tout dire et n'importe quoi, entre le peuple germanique à
l'origine du mot, une forme d'architecture médiévale qui a été nommée
au XVIe siècle en référence à la peuplade en question de façon
péjorative comme on a nommé les vandales d'après les Vandales, le
style d'écriture comme le fraktur nommé à peu près au même moment et
pour à peu près les mêmes raisons, puis un genre littéraire notamment
anglais du XVIIIe et XIXe siècles, sans doute inspiré par
l'architecture médiévale, et typifié notamment par Horace Walpole, Ann
Radcliffe, Mary Shelley, Edgar Poe et Bram Stoker, et au bout du
compte on se retrouve avec les polices linéales, un trop célèbre
tableau de Grant Wood, et des jeunes qui s'habillent en cuir noir et
sont fascinés par les vampires : le rapport avec les goths a vraiment
été perdu dans tellement de rebondissements.)
Mais laissons de côté les goths et revenons aux alphabets latin, grec, cyrillique et phonétique. Contrairement aux alphabets, disons, arabe, hébreu, devanāgarī, runique ou gothique (celui des goths), il y a clairement un « style » commun aux alphabets latin, grec, cyrillique et phonétique. C'est-à-dire qu'on a envie qu'une seule et même police de caractères les couvre tous à la fois, et que si on les mélange on n'ait pas l'impression d'un saut de style déplaisant d'une langue à l'autre. C'est-à-dire que même si on les a désunifiées, on veut quand même que ‘A’, ‘Α’ et ‘А’ soient graphiquement identiques : c'est une question d'esthétique typographique (et on veut avoir un même choix de polices, ou en tout cas des représentants des principaux types de polices, avec et sans empattement, couvrant ces alphabets à la fois). C'est encore plus important pour la phonétique, où les symboles dérivés de l'alphabet latin doivent se mêler harmonieusement à l'alphabet latin si j'ose dire « normal » (sans même compter les langues dans lesquelles les symboles phonétiques sont vraiment des lettres).
Ça a un sens de vouloir des polices grotesques, garaldes ou didones
pour les alphabets latin, grec et cyrillique, ça n'en a pas trop pour
l'alphabet arabe, où les styles, en tout cas les styles d'écriture,
(nasẖ, nastaʿlīq, dīwānī, ṯuluṯ, ruqʿaẗ…) sont complètement différents
de ceux des polices pour l'alphabet latin ; même pour l'écriture du
chinois, japonais ou coréen, qui ont partiellement convergé avec les
styles occidentaux, ce qui explique l'existence de
polices gothiques
(c'est-à-dire linéales, cf. ci-dessus) par
oppositions à des polices dans le style dynastie Ming
, ça peut
avoir un sens d'essayer d'harmoniser un peu les styles, mais je ne
crois pas que ça ait beaucoup de sens de vouloir qu'une même police
couvre l'alphabet latin et les syllabaires japonais. Il n'y a guère
que l'arménien que je pourrais imaginer vouloir aligner complètement
avec le style des alphabets latin, grec et cyrillique (par exemple
pour que le ‘օ’ U+0585 ARMENIAN SMALL
LETTER OH soit graphiquement identique au ‘o’ latin et le
‘հ’ U+0570 ARMENIAN SMALL LETTER HO
au ‘h’ latin). Mais restons-en au latin, grec et cyrillique (avec
leurs ramifications bizarres comme l'alphabet phonétique) : on a envie
que des dessins de différents caractères de ces alphabets soient
exactement identiques. Mais lesquels au juste ?
On a attiré mon attention sur ce joli diagramme de Venn qui prétend montrer les lettres en commun entre différents sous-ensembles de ces alphabets majuscules — c'est-à-dire quels glyphes sont des capitales de l'alphabet latin, de l'alphabet grec, de l'alphabet cyrillique tel qu'utilisé en russe, ou de plusieurs ou tous de ces alphabets à la fois. Mais ce qui est peut-être encore plus intéressant pour montrer la complexité de la question, c'est de comparer le diagramme en question avec celui-ci qui fait la même chose mais dans des variantes de polices cherchant à distinguer autant que possible les alphabets en question. Impossible, donc, de savoir si le ‘Y’ (U+0059 LATIN CAPITAL LETTER Y) ‘Υ’ (U+03A5 GREEK CAPITAL LETTER UPSILON) et ‘У’ (U+0423 CYRILLIC CAPITAL LETTER U) sont identiques : ils pourraient avoir tous les trois exactement le même glyphe comme ils pourraient avoir trois glyphes différents même dans une unique police couvrant les trois alphabets.
Même avec les deux variantes, il y a plein de choses que ce diagramme de Venn ne montre pas. Pour commencer, le cyrillique sert dans plein d'autres langues que le russe, et il y a beaucoup plus de variabilité dans le répertoire de lettres de l'alphabet cyrillique que dans les lettres de l'alphabet latin ou grec. Enfin, pour le latin, je me mouille un peu : Unicode inclut une quantité fabuleuse de machins dont je n'ai aucune idée d'où ils sortent, comme un ‘Ƃ’ U+0182 LATIN CAPITAL LETTER B WITH TOPBAR qui n'est pas la lettre cyrillique ‘Б’ U+0411 CYRILLIC CAPITAL LETTER BE mais une lettre latine lui ressemblant exactement : le Club Contexte se marre énormément : donc techniquement il faudrait modifier le diagramme de Venn pour mettre cette lettre dans l'intersection latin-cyrillique. Mais je n'ai pas le temps de vous parler des monstrueux hybrides latin-cyrillique inventés par des chinois fous. Je pourrais évoquer le ‘Þ’, qui est une lettre latine pas si exotique que ça (U+00DE LATIN CAPITAL LETTER THORN, elle sert en vieil anglais et en islandais moderne) mais dont la forme est aussi celle d'une lettre grecque complètement fumée de l'espace, ‘Ϸ’ (U+03F7 GREEK CAPITAL LETTER SHO), qui sert, enfin, servait, à écrire le bactrien. Mais on peut supposer que ces machins ne sont quand même pas, ahem, très fréquents, donc cachons-les sous le tapis. En revanche, pour le cyrillique, l'alphabet russe actuel est vraiment très loin de représenter tous les caractères même vraiment peu exotiques de l'alphabet cyrillique (et c'est pour ça que le diagramme de Venn représente les alphabets latin, grec et russe) : en ukrainien et en biélorusse, il y a un ‘І’ (U+0406 CYRILLIC CAPITAL LETTER BYELORUSSIAN-UKRAINIAN I), et on peut dire en première approximation que les lettres ‘И’/‘Ы’ du russe (i « mou » et i « dur ») correspondent aux lettres ‘І’/‘Ы’ en biélorusse (où il n'y a pas de ‘И’) et ‘І’/‘И’ en ukrainien (où il n'y a pas de ‘Ы’ ; remarquez que la lettre qui sert au i « mou » en russe sert au i « dur » en ukrainien, c'est vraiment malin, ça, merci de votre contribution au Club Contexte les gars ; enfin, c'est pas plus mal que le ‘Ы’ russe pour commencer, qui historiquement est le digraphe ‘ЪІ’ et a été déformé en une lettre ‘Ы’ qui représente un i « dur » en combinant deux sons « mous » — passons).
Il y aurait plein de choses à dire dans l'histoire de l'alphabet cyrillique : contrairement aux alphabets grec et latin, son évolution est raisonnablement récente et donc d'autant mieux documentée (et la distinction majuscule/minuscule existait dès le départ). Par exemple, juste pour parler du russe, la lettre ‘Я’ (U+042F CYRILLIC CAPITAL LETTER YA, qui est souvent considérée dans les pays ignorants de l'alphabet cyrillique comme « emblématique » du russe et imaginée comme une sorte de ‘R’ parce que ça y ressemble à l'envers — je déteste particulièrement quand les publicitaires français essayent de « faire russe » en mettant des ‘R’ et des ‘N’ à l'envers, parce que je n'arrive vraiment pas à penser à ‘Я’ et ‘И’ comme des consonnes), la lettre ‘Я’, donc, est essentiellement une invention de Pierre le Grand (ou en tout cas de son époque), ce n'est pas si vieux que ça : avant, on écrivait quelque chose comme ‘Ѧ’ (U+0466 CYRILLIC CAPITAL LETTER LITTLE YUS) ou ‘Ѩ’ (U+0468 CYRILLIC CAPITAL LETTER IOTIFIED LITTLE YUS) ou ‘Ꙗ’ (U+A656 CYRILLIC CAPITAL LETTER IOTIFIED A — cette dernière a d'ailleurs mis beaucoup plus de temps à intégrer Unicode, sans doute parce que des gens considéraient qu'il fallait l'amalgamer avec le ‘Я’), le choix n'était pas forcément fait très systématiquement ; de ce que j'ai compris (mais voir ici pour une discussion que j'ai eue avec des gens plus savants que moi), le ‘Ѧ’ (« petit yus ») désignait en vieux slavon une voyelle nasale pas très claire, et le ‘Ѩ’ était sa variante « yodisée » (en gros précédée d'une semi-voyelle /i/~/j/), tandis que ‘Ꙗ’ (le a yodisé) était à peu près l'équivalent du ‘Я’ russe actuel, mais ces lettres avaient plus ou moins fusionné en russe et étaient devenues (quasi ?) interchangeables : une réforme orthographique les a toutes remplacées par ‘Я’, qui est une sorte de variante graphique de tous ces caractères (et n'a donc rien à voir avec un ‘R’). Et jusqu'à 1917, le russe avait encore un ‘І’ (essentiellement utilisé devant les voyelles) en plus du ‘И’/‘Ы’, et aussi un ‘Ѣ’ (U+0462 CYRILLIC CAPITAL LETTER YAT, phonétiquement équivalent au ‘Е’). Quant à la lettre ‘У’ (U+0423 CYRILLIC CAPITAL LETTER U), qui ressemble vaguement ou totalement à un ‘Y’, elle vient en fait d'un digraphe ‘ОУ’/‘Ѹ’/‘Ꙋ’, essentiellement omicron+upsilon, transformé en ligature où le omicron a plus ou moins disparu (donc ce n'est pas tant un cognat du ‘Υ’ grec que d'une combinaison dont le ‘Υ’ faisait partie).
Parlant de digraphes qui se transforment en ligatures et en
lettres, il y a le cas bizarre du ‘ij’ en néerlandais, qui est
normalement considéré comme une seule lettre, qui peut être
écrit en ligature et du coup recevoir son propre symbole Unicode, ‘ij’
(U+0133 LATIN SMALL LIGATURE IJ) ou,
en fait, être transformé en ‘ÿ’ ou simplement ‘y’ parce que quand on
écrit ‘ij’ suffisamment serré, ça devient essentiellement ‘ÿ’ ;
écrire Frankrÿk
ou Frankryk
(au lieu de Frankrijk
) pour la France (= royaume
des Francs) a l'air passablement désuet en néerlandais (la question de
savoir si ‘ij’ et ‘y’ sont la même chose ou non est une de ces
questions byzantines, pardon, bijzantines, capables de faire couler
beaucoup plus d'encre qu'elles n'en valent), mais en afrikaans et
peut-être aussi en flamand-de-belgique je crois comprendre que ça
reste l'orthographe normale. Mais comme ‘ij’ est considéré comme une
seule lettre, sa majuscule est ‘IJ’, qu'on l'écrive avec deux
caractères séparés comme je viens de le faire ou comme une ligature
‘IJ’ (U+0132 LATIN CAPITAL LIGATURE
IJ) ou comme ‘Ÿ’ ou simplement ‘Y’. D'où : IJsselmeer
.
Mais il y aussi des langues qui ont des digraphes considérés comme
une seule lettre et qui prennent une forme spéciale
majuscule+minuscule : par exemple ‘Lj’
(U+01C8 LATIN CAPITAL LETTER L WITH SMALL
LETTER J) qui est distinct à la fois de ‘LJ’
(U+01C7 LATIN CAPITAL LETTER LJ) et
de ‘lj’ (U+01C9 LATIN SMALL LETTER
LJ), pour correspondre en croate à la lettre ‘Љ’ du serbe
(représentant le son noté phonétiquement par le caractère
‘ʎ’ U+028E LATIN SMALL LETTER TURNED
Y, qui est censé être un ‘y’ retourné mais dont on peut
soupçonner que la ressemblance avec un ‘λ’ n'est pas purement
accidentelle).
Je digresse un peu trop, mais revenons au latin, grec et
cyrillique. Au contraire des lettres qui se trouvent accidentellement
se ressembler et qui n'ont rien à voir (j'ai donné l'exemple du ‘H’
latin et du ‘Η’ grec, qui sont raisonnablement apparentés, et du ‘Н’
qui ne leur ressemble que par accident), il y a des lettres qui sont
moralement « essentiellement la même » (au sens faible où ‘A’, ‘Α’ et
‘А’ sont « essentiellement la même » lettre) mais que des habitudes
typographiques font qu'on les note différemment : le ‘Λ’ grec
(U+039B GREEK CAPITAL LETTER LAMDA)
et le ‘Л’ cyrillique (U+041B CYRILLIC
CAPITAL LETTER EL) sont « essentiellement » la même lettre,
lambda, mais il se trouve que le ‘Л’ cyrillique est beaucoup plus
souvent écrit avec une barre gauche vaguement courbée et une barre
droite verticale ; les gens qui ont fait le diagramme de Venn
mentionné plus haut ont trouvé des exemples (comme sur
l'inscription Ленин
au mausolée de Lénine) où il est fait comme
un ‘Λ’ grec. Mais ils distinguent quand même le ‘Д’ cyrillique
(U+0414 CYRILLIC CAPITAL LETTER DE)
du ‘Δ’ grec (U+0394 GREEK CAPITAL LETTER
DELTA) parce que le premier a apparemment toujours des petits
empattements qui descendent et pas le second : c'est pourtant vraiment
un accident typographique, et je suis sûr que, comme toujours
ne signifie jamais toujours
, on doit bien trouver quelque part,
quelqu'un, qui a écrit un ‘Д’ cyrillique sans ces empattements et qui
ressemble exactement à un ‘Δ’ grec. Tiens, à ce sujet, comment est-ce
que les Grecs parlent dans la traduction russe des aventures d'Astérix
et Obélix ?
La notion même de lettres cognates n'est, bien sûr, pas bien
définies : quand l'alphabet cyrillique a été inventé, le ‘Β’ (bêta)
grec se prononçait /v/ (c'est le cas en grec moderne, où le son /b/
est transcrit μπ
[correction : et
pas μβ
comme je l'avais écrit]), et donc la lettre ‘В’ du
cyrillique désigne le son /v/, mais comme les langues slaves avaient
un vrai son /b/, on a inventé la lettre ‘Б’ pour le désigner (et comme
je l'ai mentionné plus haut, des chinois ont été assez fous pour la
mélanger avec l'alphabet latin ce qui fait qu'Unicode a dû inventer le
symbole frankensteinien de ‘Ƃ’ latin, mais oublions-le bien vite).
Faut-il considérer que c'est le ‘В’ ou le ‘Б’ cyrillique qui est le
frère du ‘B’ latin ? Difficile à dire !
Bon, mais ensuite, il y a les formes cursives, et si vous trouvez que le Contexte n'était pas encore assez compliqué comme ça, les choses deviennent encore pires.
Au sein d'un même alphabet, il y a souvent beaucoup de variations dans le cursif, encore plus bizarres qu'entre les polices d'imprimerie normales (je ne sais pas vraiment comment dire « non-cursif » de façon pas tarabiscotée : à l'école primaire en France on me faisait dire « script », mais en anglais c'est justement synonyme de « cursif » et le Club Contexte a encore frappé). Je suis allé à l'école primaire en France et au Canada, et on m'a fait apprendre deux écritures cursives qui se ressemblent pas mal en minuscules mais sont sacrément différentes en majuscules : en France ça ressemblait à peu près à ce qu'on trouve ici (je ne trouve pas d'image sur Wikimédia commons ou autre), sauf peut-être pour le ‘Q’ majuscule que je crois me rappeler ressemblant vaguement à un ‘2’ ; au Canada, c'était plutôt comme ceci, et j'apprends sur Wikipédia que ce style d'écriture a un nom : le D'Nealian (D'Nealien ?). Le ‘I’ et plus encore le ‘G’ majuscules sont vraiment bizarres et contre-intuitifs, je ne sais pas qui a fumé des formes pareilles. (Mais ce n'est pas une blague, ma tante canadienne, qui a une écriture très jolie mais assez difficile à lire quand on n'a pas l'habitude, fait vraiment ses ‘G’ comme ça.)
J'ai évoqué plus haut le fraktur, une forme d'écriture gothique
(pour au moins un des trois ou quatre sens complètement confusants du
mot gothique
) : si on considère que c'est un alphabet
spécifique, cet alphabet a aussi une forme cursive,
le sütterlin
(ou plus généralement, le kurrent), parfois considéré comme du
« gothique cursif », et qui était courant en Allemagne avant la
seconde guerre mondiale. Quand j'étais lycéen, je m'étais amusé à
noter mes cours d'allemand, puis mes cours de toutes sortes d'autres
matières, en sütterlin, juste par perversité et pour empêcher qu'on
puisse me relire ; mais le sütterlin peut éventuellement avoir un
intérêt pour un mathématicien, c'est de fournir un équivalent
manuscrit de lettres gothiques (qui sont essentiellement impossibles à
faire si on n'a pas une plume capable de faire des traits de
différentes épaisseurs, et notamment à la craie au tableau noir). Le
fait que le ‘h’ minuscule en sütterlin ait la forme d'une des
variantes possible du ‘f’ minuscule cursif latin (enfin,
non-sütterlin, quoi) doit nous rappeler qu'il faut faire vraiment
gaffe avec les identifications de formes.
Et si on voulait faire un diagramme de Venn entre les alphabets latin et cyrillique cursifs (je laisse de côté le grec, parce que je ne connais vraiment pas le cursif grec), il serait bien différent du diagramme pour les majuscules d'imprimerie. Pour commencer, il n'est pas bien défini parce que comme ce dessin le montre, la forme cursive de certaines lettres, en l'occurrence ‘Д’, dépend de la langue qu'on écrit. Mais même si on se limite au russe, des ressemblances inattendues apparaissent avec l'alphabet latin qui sont tout à fait différentes de ce qu'on voyait en majuscules d'imprimerie droites : le ‘д’ cyrillique cursif ressemble à (ou au moins, est susceptible de coïncider avec) un ‘g’ latin cursif (je serais curieux de savoir comment il a évolué dans ce sens), le ‘и’ cyrillique cursif ressemblera typiquement à un ‘u’ latin cursif, le ‘п’ cyrillique cursif ressemble à un ‘n’ latin cursif, le ‘т’ cyrillique cursif ressemble à un ‘m’ latin cursif, etc. Rien qu'en italiques, le ‘д’ cyrillique italique (essayons en HTML : ‘д’) va avoir tendance à ressembler au symbole ‘∂’ qui peut surprendre à la fois eu égard à sa forme non-italique (droite ? romane ? comment doit-on dire ?) ‘д’ et à sa forme cursive (dont je viens de dire qu'elle coïncide typiquement avec un ‘g’ latin cursif) ! Je me souviens qu'en cours de russe au lycée, certains de mes condisciples, voyant le ‘д’ italique pour la première fois (notre manuel nous avait montré l'alphabet d'imprimerie droit et l'alphabet cursif, mais pas l'alphabet italique, qu'il utilisait pourtant) faisaient preuve de dyslexie et le prenaient pour un ‘б’. Et comme pour le cursif, le ‘и’ cyrillique italique ressemblera typiquement à un ‘u’ latin italique, le ‘п’ cyrillique italique ressemble à un ‘n’ latin italique et le ‘т’ cyrillique italique ressemble souvent à un ‘m’ latin italique.
Bon, je vais arrêter là le catalogue d'anecdotes et de bizarreries, et je vais me retenir très fort de vous parler du syllabaire cherokee qui est pourtant vraiment la plus magnifique invention du Club Contexte de tous les temps (avant de savoir qu'il avait été créé par quelqu'un qui avait vu l'alphabet latin mais ne le connaissait pas, je pensais que c'était une vaste blague). Je ne vous ai pas parlé de l'histoire de l'alphabet latin (pour ça, je vais vous renvoyer à cette vidéo), avec la bizarre note en bas de page que sont les lettres claudiennes. Et je n'ai pas évoqué le ‘ß’ allemand (qui s'appelle s+z mais représente s+s, et d'ailleurs les règles orthographiques à son sujet ont changé parce que ce serait trop facile sinon) et l'épineuse question de savoir s'il existe un ‘ß’ majuscule (Unicode a longtemps considéré que non avant de capituler et de créer le ‘ẞ’ U+1E9E LATIN CAPITAL LETTER SHARP S). Je n'ai pas non plus évoqué l'alphabet Fraser pour écrire le Lisu (‘ꓮ’ U+A4EE LISU LETTER A devrait-il être amalgamé avec ‘A’ ?), ni les alphabets cariens. J'ai l'impression qu'il devrait être possible d'arranger toutes mes remarques désordonnées en quelque chose d'un peu systématique (une théorie de la ressemblance et de la dissemblance, de l'équivalence et de la non-équivalence, des lettres), mais je ne sais pas comment m'y prendre, alors pour l'instant cela reste un catalogue hétéroclite et sans queue ni tête, mais où le Club Contexte s'amuse comme un petit fou.
Mais une chose reste sûre : décider ce que cela signifie que deux lettres soient ou ne soient pas la même est un problème extrêmement complexe, et souvent toutes les décisions possibles sont pourries.