David Madore's WebLog: Club Contexte : Communications Papier (ou pensées en vrac sur les lettres et leur forme)

Les communications papier dont je veux parler c'est, bien sûr, l'écriture, mais le titre de cette entrée s'abrège en CCCP, ce qui n'a absolument rien à voir avec СССР qui est l'abréviation de Союз Советских Социалистических Республик, autrement dit, de l'URSS. Selon votre navigateur et les polices installées sur votre ordinateur, le ‘C’ de Club Contexte (U+0043 LATIN CAPITAL LETTER C) et le ‘С’ de Советский Союз (U+0421 CYRILLIC CAPITAL LETTER ES) apparaîtront peut-être, ou peut-être pas, comme identiques. Ce sont néanmoins des caractères différents pour Unicode, comme vous pouvez le vérifier en recherchant ‘C’ dans cette page, ou en copiant-collant le caractère et en le recherchant dans Google, ou quelque chose de ce genre. (Hum, à vrai dire, ce serait peut-être le jeu de décider que Club Contexte s'abrège en СС avec un ‘С’ cyrillique — cyrillique, pas сyrillique. Mais comme le ‘С’ cyrillique est plutôt une ‘S’, enfin, se prononce quelque chose ressemblant à /s/, je devrais dire l'‘С’ cyrillique : il va falloir que j'interroge le Club Contexte en Сection Politique pour fixer les détails.)

Bref, vous aurez compris l'idée : ce qu'est une lettre est quelque chose d'assez délicat. Un matheux a envie de dire qu'une lettre est une classe d'équivalence pour la relation d'équivalence être la même lettre, mais qu'est-ce que c'est que cette relation d'équivalence, justement ?

Unicode doit régulièrement prendre des décisions to conflate or to disunify?, autrement dit, décider si on doit considérer que deux machins sont ou non la même lettre. Et cette décision n'a souvent rien d'évident, toutes sortes de problèmes peuvent survenir dans les deux sens, et il n'y a souvent pas de bonne solution. Notamment parce que la relation être la même lettre a furieusement tendance à ne pas être une relation d'équivalence : elle n'est pas transitive (une langue pourrait considérer que foo et bar sont la même lettre, une autre que bar et qux sont la même lettre, et une troisième que foo et qux ne sont pas du tout la même lettre).

Voici quelques unes des choses, en vrac, que j'ai apprises en me documentant à gauche et à droite sur Unicode et sur l'histoire des formes d'écriture. On va voir que le Club Contexte aime beaucoup s'amuser avec l'écriture. (Quasiment chaque paragraphe dans ce qui suit raconte sa propre petite histoire et peut être lu indépendamment des autres ; j'ai essayé de trouver un fil directeur, mais c'est trop difficile, il n'y a juste aucune logique dans cette collection de faits.)

Commençons par une question basique : faut-il considérer que la première lettre des alphabets latin, grec et cyrillique, c'est-à-dire ‘A’, ‘Α’ et ‘А’ sont la même lettre ? Dans Unicode, ce sont U+0041 LATIN CAPITAL LETTER A, U+0391 GREEK CAPITAL LETTER ALPHA et U+0410 CYRILLIC CAPITAL LETTER A, c'est-à-dire qu'Unicode a tranché pour désunifier.

D'un côté, considérer que non (comme le fait Unicode), i.e., que ce sont trois lettres différentes, est très confusant pour les gens qui ne voient aucune différence (notamment sur leur écran), cela peut être la cause de toutes sortes de problèmes informatiques, notamment d'attaques délibérées. (gооgle.com, par exemple, avec deux U+043E CYRILLIC SMALL LETTER O, a été acheté par Google pour ne pas qu'on puisse y rediriger malicieusement les gens qui pensaient aller à google.com — et de toute façon votre navigateur vous montrera probablement le Punycode xn--ggle-55da.com si vous y allez — mais on ne peut pas éliminer tous les risques de ce genre. Remarquez que quasiment tous les langages de programmations acceptent, maintenant, des identificateurs en Unicode, et j'attends le moment où quelqu'un aura malicieusement introduit un trou de sécurité quelque part en nommant une variable locale ‘а’ (U+0430 CYRILLIC SMALL LETTER A) pour cacher le fait qu'elle ne masque pas, du coup, une variable ‘a’ (U+0061 LATIN SMALL LETTER A) de portée plus lointaine.) Ou à défaut de bugs, simplement de petites tracasseries : si je veux vérifier que je ne me suis pas trompé dans l'ordre de mes ‘A’, ‘Α’ et ‘А’, c'est plus fastidieux que si je devais trier ‘A’, ‘B’ et ‘C’.

D'un autre côté, considérer que ‘A’, ‘Α’ et ‘А’ sont la même lettre serait très gênant quand il s'agit de passer en minuscules, par exemple (‘a’ et ‘α’ diffèrent certainement, et ‘а’ diffère peut-être aussi), ou si on veut développer des polices spécifiques à l'un ou l'autre des alphabets. (L'affichage du grec sur mon navigateur est souvent rendu moche par le fait que j'ai des polices qui ont juste le ‘π’, probablement parce qu'il sert plus souvent que d'autres, et comme je ne sais pourquoi mon navigateur tend à préférer cette police, je vois souvent cette seule lettre dans une police visiblement différente. Imaginez à quel point la lecture du cyrillique serait moche si les lettres communes à l'alphabet latin étaient prises dans une police prévue pour l'alphabet latin et les autres dans une autre.) Et je vais revenir plus bas sur la question de l'écriture cursive.

Et encore, au moins ‘A’, ‘Α’ et ‘А’ ont historiquement la même origine : ce sont des lettres cognates ou dérivées les unes des autres. (Disons que le alpha grec archaïque — savoir si c'est le même que le alpha grec classique et moderne est encore une question épineuse — dérive du ‘𐤀’ U+10900 PHOENICIAN LETTER ALF phénicien et a donné naissance au ‘A’, enfin, au ‘𐌀’ U+10300 OLD ITALIC LETTER A italique puis au ‘A’ latin et bien plus tard au ‘A’ cyrillique.) Bref, ‘A’, ‘Α’ et ‘А’ sont « essentiellement » la même lettre, ou trois versions de la même lettre dans trois alphabets différents. Mais si on considère ‘P’, ‘Ρ’ et ‘Р’ (U+0050 LATIN CAPITAL LETTER P, U+03A1 GREEK CAPITAL LETTER RHO et U+0420 CYRILLIC CAPITAL LETTER ER), il y a clairement un intrus, et c'est le premier, parce que l'alphabet latin a eu l'idée complètement bizarre de déformer son pi (‘Π’) jusqu'à avoir la forme d'un rhô (‘Ρ’) (la forme intermédiaire est représentée par ‘𐌐’, U+10310 OLD ITALIC LETTER PE, si vous avez ça dans vos polices). Quand je lis СССР, même en parlant français, je lis ça quelque chose comme comme ès-ès-ès-èr, certainement pas cé-cé-cé-pé. On aurait pu imaginer amalgamer les lettres qui ont la même origine et des sons analogues (donc ‘A’, ‘Α’ et ‘А’) sans amalgamer celles qui ont des origines différentes ou des sons très différents (autre exemple, le ‘Н’ cyrillique, U+041D CYRILLIC CAPITAL LETTER EN, est en fait clairement un ‘N’ écrit bizarrement, malgré sa ressemblance avec le ‘H’ latin et le ‘Η’ (êta) grec).

Si vous voulez des exemples plus épineux de choix à faire entre amalgamer et désunifier, il y en a au sein de l'alphabet latin : ‘I’ et ‘i’ sont-ils la majuscule et la minuscule de la même lettre ? Pour la plupart des langues du monde, oui, mais pas pour le turc, qui considère fort logiquement que ‘I’ est la majuscule de ‘ı’ (U+0131 LATIN SMALL LETTER DOTLESS I) tandis que la majuscule de ‘i’ est ‘İ’ (U+0130 LATIN CAPITAL LETTER I WITH DOT ABOVE). Bon, heureusement, pour Unicode, être la majuscule et la minuscule de la même lettre n'est pas formellement défini (pas de façon normative, en tout cas), mais ça a quand même la conséquence déplaisante que la conversion de majuscule en minuscule ou vice versa dépend de la langue. Pour ma part, j'aurais bien proposé d'avoir trois lettres différentes (six caractères en tout) : un ‘I’ dont la minuscule est ‘i’, qui sert dans beaucoup de langues, un ‘I’ dont la minuscule est ‘ı’, qui sert uniquement en turc, et un ‘İ’ dont la minuscule est ‘i’, qui sert aussi uniquement en turc. Mais Unicode, dans son infinie sagesse, en a décidé autrement : probablement par compatibilité avec un standard antérieur (typiquement, ISO-8859-9) qui manquait de place pour mettre trop de fantaisies et qui ne voulait pas semer la confusion chez les utilisateurs turcs qui n'auraient pas compris pourquoi il y avait deux ‘i’ différents et deux ‘I’ différents (à chaque fois un pour le turc et un pour toutes les autres langues). Bref, ce n'est pas facile !

Unicode traîne parfois des pieds pour accepter de désunifier des lettres (dans l'autre sens, une fois qu'elles sont désunifiées, c'est impossible de les réunifier). Par exemple, il y a maintenant dans le bloc cyrillique supplémentaire un ‘Ԛ’ (U+051A CYRILLIC CAPITAL LETTER QA) et un ‘Ԝ’ (U+051C CYRILLIC CAPITAL LETTER WE) pour des lettres qui servent dans l'écriture cyrillique du kurde : ils datent d'Unicode 5.1 c'est-à-dire d'avril 2008. Avant ça, je me souviens d'avoir vu passer des engueulades pour savoir si c'étaient vraiment des lettres cyrilliques ou des lettres latines utilisées au milieu de lettres cyrilliques. Comment savoir ? Est-ce que la question a même un sens ?

La source du plus grand nombre de maux de tête vient certainement de l'Alphabet Phonétique International (API). Celui-ci a été créé par des linguistes qui ont bidouillé comme ils ont pu avec des glyphes venant essentiellement de l'alphabet latin, les tournant parfois dans différents sens pour obtenir de nouveaux caractères (c'était plus facile que de faire créer des symboles entièrement nouveaux). Il y a un nombre incroyable de bizarreries. Le caractère ‘ɟ’ (U+025F LATIN SMALL LETTER DOTLESS J WITH STROKE, représentant l'occlusive palatale voisée qu'on a tendance à imaginer comme quelque part entre ‘g’ et ‘d’ et qui est en gros le ‘gy’ du hongrois) était évidemment à l'origine un ‘f’ retourné, et quelqu'un a trouvé malin de le réinterpréter, au moins pour ce qui est de son nom Unicode, comme un ‘j’ sans point avec une barre, ce qui est quand même assez créatif (mais peut-être vaguement sensé compte tenu du son qu'il représente) ; par contre, de façon décevante, le caractère ‘ɥ’ (U+0265 LATIN SMALL LETTER TURNED H, qui représente la semi-voyelle notée par la lettre ‘u’ dans le mot français fuite quand ce n'est pas un Belge qui le prononce), à savoir un ‘h’ inversé, n'a pas été réinterprété comme un ‘u’ avec une barre allongée à droite. Bon, mais l'alphabet phonétique distingue, par exemple, ‘a’ et ‘ɑ’ (pour noter des voyelles plus ou moins antérieures, par exemple la distinction entre patte et pâte en français pour les gens qui la font encore) : le premier est un bête U+0061 LATIN SMALL LETTER A, mais Unicode a décidé d'appeler le second un U+0251 LATIN SMALL LETTER ALPHA, un alpha latin, ce qui est quand même un concept original. De même, le symbole ‘ɣ’ qui note la fricative vélaire voisée (de l'espagnol amigo ou au début du néerlandais graag) est un U+0263 LATIN SMALL LETTER GAMMA, un gamma latin, que le Club Contexte vous rappelle qu'il ne faut d'ailleurs pas confondre avec la voyelle ‘ɤ’ (U+0264 LATIN SMALL LETTER RAMS HORN), les cornes de bélier également appelées bébé gamma. Il y a encore un upsilon latin (‘ʊ’, U+028A LATIN SMALL LETTER UPSILON), un phi latin (‘ɸ’, U+0278 LATIN SMALL LETTER PHI) et quelques autres ; mais bizarrement, le symbole ‘ɛ’ qui note le son français de bête (ou de fait par opposition à fée quand ce n'est pas un méridional qui parle) est, dans Unicode, U+025B LATIN SMALL LETTER OPEN E, je ne sais pas pourquoi ce n'est pas un epsilon latin ; toujours est-il qu'il n'est pas unifié avec le ‘ε’ de l'alphabet grec (U+03B5 GREEK SMALL LETTER EPSILON). Il y avait aussi un iota latin (‘ɩ’, U+0269 LATIN SMALL LETTER IOTA), mais il ne fait plus partie de l'API (en gros, il a été remplacé par ‘ɪ’, U+026A LATIN LETTER SMALL CAPITAL I, sans doute pour des raisons de lisibilité), ce qui ne l'a pas empêché de rentrer dans Unicode parce qu'il faut bien pouvoir noter les textes qui s'en servent encore (mais aurait-il fallu l'identifier avec ‘ɪ’ ?). On pourrait s'imaginer qu'Unicode a pris la décision que les symboles phonétiques sont toujours « latins », mais ce n'est pas le cas non plus : ayant inventé l'alpha latin, le gamma latin, l'upsilon latin, le phi latin et le e ouvert latin qui ressemble bigrement à un epsilon latin, Unicode a cependant renoncé à inventer un thêta latin, et utilise ‘θ’ (U+03B8 GREEK SMALL LETTER THETA), le vrai thêta grec, pour la fricative dentale sourde (le th de l'anglais thing), et de même ‘χ’ (U+03C7 GREEK SMALL LETTER CHI), le vrai chi grec, pour la fricative vélaire sourde (le pendant sourd du ‘ɣ’, lequel est un gamma latin, est donc un chi grec). La logique m'échappe.

Autre bizarrerie : en alphabet phonétique, le ‘g’ utilise le glyphe simple qui est le typique dans les polices italiques ou linéales, c'est-à-dire sans l'espèce de fioriture qui boucle dans tous les sens (en anglais on parle de loop-tail g pour la variante avec fioriture par opposition à fish hook g pour la variante sans fioriture, je ne connais pas d'équivalents français donc je vais continuer à dire fioriture). Si on tape dans une police qui n'a pas cette fioritude, c'est tentant de taper un simple ‘g’ (U+0067 LATIN SMALL LETTER G) ; mais si on a une police qui a cette fioriture, il faut utiliser un caractère différent : Unicode a créé le ‘ɡ’ (U+0261 LATIN SMALL LETTER SCRIPT G) spécifiquement pour le ‘g’ sans fioriture (fish hook g) dénotant l'occlusive vélaire voisée dans l'API, mais il est considéré comme acceptable d'utiliser un simple ‘g’ qui sera visuellement identique dans certaines polices.

Pourquoi ne pas avoir décidé que l'alphabet phonétique fût un alphabet complètement différent de l'alphabet latin, sans rapport avec lui ? Ç'eût été une possibilité : elle aurait eu ceci de déplaisant qu'on aurait dû écrire la transcription phonétique d'un mot français comme papa avec des lettres graphiquement identiques et représentant les mêmes sons mais qui auraient été informatiquement des caractères différents ; pourquoi pas, à la limite. L'ennui c'est qu'il y a plein de langues, notamment africaines subsahariennes, dont l'écriture, inventée par des européens, se fait en alphabet latin mais en incorporant des symboles de l'alphabet phonétique pour représenter toutes sortes de sons qui n'étaient pas évidemment transcrivables en alphabet latin. Donc l'alphabet phonétique est à moitié passé de jeu de symboles à véritable alphabet. Et pour ajouter de la complication à la complication, ces langues ont souvent inventé des majuscules à des caractères qui, en alphabet phonétique, n'avaient pas de casse : par exemple, le ‘ʃ’ (U+0283 LATIN SMALL LETTER ESH), qui dénote le son ch de chat en français, et qui est à l'origine un ‘s’ long (ce qui n'empêche pas le ‘s’ long d'exister aussi dans Unicode comme ‘ſ’, U+017F LATIN SMALL LETTER LONG S, sans parler du signe d'intégrale qu'il a aussi donné) a reçu une majuscule dans certaines langues, à savoir ‘Ʃ’, U+01A9 LATIN CAPITAL LETTER ESH, qu'il a été décidé de ne pas amalgamer avec le ‘Σ’ grec (U+03A3 GREEK CAPITAL LETTER SIGMA) parce que, visiblement, la minuscule n'est pas la même. (Bon, je n'ai pas réussi à savoir quelle langue, if any, utilise réellement le esh comme lettre : les majuscules ont disparu de la version 1982 de l'alphabet africain de référence publié par l'UNESCO, et le esh lui-même a servi en bambara mais a été remplacé par l'orthographe ‘sh’. Cependant, il semble qu'au moins certaines orthographes du mbembe utilisent le alpha latin minuscule et majuscule, d'où un ‘Ɑ’ U+2C6D LATIN CAPITAL LETTER ALPHA.) Quel chaos !

Pour le grec, il y a une autre chose intéressante à mentionner : certains caractères grecs ont plusieurs variantes assez différentes. Par exemple, le ‘φ’ (phi) peut s'écrire soit d'un seul trait qui finit en bas mais ne monte jamais en haut, soit de façon quasi identique à la majuscule donc comme un rond barré verticalement ; du point de vue de la langue grecque, ces deux glyphes sont interchangeables, et il faudrait les amalgamer, mais les mathématiciens, qui sont joueurs, utilisent les deux différemment (et parfois au sein d'une même formule) ; Unicode a inventé un symbole pour désigner spécifiquement la variante d'écriture du ‘φ’ qui ressemble à la majuscule, ‘ϕ’ (U+03D5 GREEK PHI SYMBOL) ; en plus, comme le Club Contexte a encore frappé, sous TeX, la forme considérée comme « normale » par Unicode se note \varphi tandis que la forme considérée comme « variante » par Unicode (‘ϕ’) se note \phi, et d'ailleurs Unicode a commencé par prendre la convention de TeX avant de changer d'avis. Il y a de même deux formes d'écriture du thêta, la forme normale ‘θ’ (\theta en TeX) et la variante ‘ϑ’ (U+03D1 GREEK THETA SYMBOL, \vartheta en TeX) pas tout à fait close. Il y a deux formes d'écriture du rhô, la forme normale ‘ρ’ (\rho en TeX) et la variante ‘ϱ’ (U+03F1 GREEK RHO SYMBOL, \varrho en TeX) qui ressemble un peu à un ‘e’. Il y a aussi deux formes d'écriture du pi, la forme normale ‘π’ (\pi en TeX) et la variante ‘ϖ’ (U+03D6 GREEK PI SYMBOL, \varpi en TeX) ou « pi alexandrin », que certains prennent pour un ‘ω’ surmonté d'un tilde. Parfois on distingue aussi deux formes d'écriture du kappa, la forme normale ‘κ’ (\kappa en TeX) et la variante ‘ϰ’ symétrique par rapport à son centre (U+03F0 GREEK KAPPA SYMBOL), mais cette fois \varkappa n'existe pas par défaut dans TeX parce que ce serait trop facile. Il y a de deux formes d'écriture du bêta, la forme normale ‘β’ (\beta en TeX) qui descend en bas et la variante ‘ϐ’ (U+03D0 GREEK BETA SYMBOL) recourbée sur elle-même, et une fois de plus \varbeta n'existe pas par défaut dans TeX ; ceci étant, cette variante ne sert pas en mathématiques (enfin, il y aura toujours un matheux fou pour faire des fantaisies, mais ça ne sert pas normalement), mais certains hellénistes écrivent l'une ou l'autre forme selon que le bêta est initial ou non (je ne sais pas de quand et d'où date cette convention typographique). Il est déjà plus standard de faire une différence graphique sur le sigma selon qu'il est ou non final : ‘σ’ (U+03C3 GREEK SMALL LETTER SIGMA) est la forme normale et ‘ς’ (U+03C2 GREEK SMALL LETTER FINAL SIGMA) est la forme finale, cette fois-ci c'est considéré comme une vraie lettre et pas comme un symbole mathématique. (Mais on aurait pu considérer que c'était le boulot de la police et pas de celui qui tape le texte, de mettre des sigma finaux en fin de mot.)

Il arrive qu'Unicode regrette ses décisions. Ils sont restés très longtemps sur l'idée que le copte s'écrit en alphabet grec (c'est-à-dire d'amalgamer les alphabets grec et copte) avant de finalement faire machine arrière et de créer un alphabet copte séparé. En revanche, ils restent sur l'idée que l'alphabet phénicien est le même que l'alphabet paléo-hébraïque (je ne parle pas de l'alphabet hébreu actuel, qui dérive de l'alphabet araméen, quoique l'alphabet araméen a sa propre existence dans Unicode, mais l'alphabet hébreu ancien, qui dérive ou peut-être même coïncide avec, l'alphabet phénicien). C'est le problème des alphabets qui sont naturellement en correspondance, souvent « presque » en bijection : quand doit-on considérer qu'il s'agit de variantes du même alphabet et quand doit-on considérer qu'il s'agit d'alphabets différents ?

Les alphabets des langues brahmiques de l'Inde, qui sont tous cousins sinon frères, ont des correspondances naturelles entre eux : ces correspondances sont reflétées dans la disposition Unicode où l'ajout et la soustraction de 128 (0x80) permet de passer d'un alphabet à l'autre (par exemple ‘प’ U+092A DEVANAGARI LETTER PA, ‘প’ U+09AA BENGALI LETTER PA, ‘ਪ’ U+0A2A GURMUKHI LETTER PA, ‘પ’ U+0AAA GUJARATI LETTER PA, ‘ପ’ U+0B2A ORIYA LETTER PA, ‘ப’ U+0BAA TAMIL LETTER PA, ‘ప’ U+0C2A TELUGU LETTER PA et ‘ಪ’ U+0CAA KANNADA LETTER PA). Tous les alphabets ne sont pas également complets, mais l'alphabet devanāgarī est le plus complet, donc on doit pouvoir transcrire toutes ces langues dans cet alphabet (et il semble même que ça doive servir parce que certains caractères du bloc unicode devanāgarī sont spécifiquement annotés comme servant à transcrire, par exemple, une langue dravidienne). On pourrait très bien imaginer décider qu'il existe un unique alphabet « brahmique » qui est écrit dans des polices différentes selon la langue dont il est question.

Si cette idée semble saugrenue, considérons l'allemand il n'y a pas si longtemps : il était convenu que cette langue s'écrivît dans un style d'écriture — je ne sais pas si on doit le qualifier d'alphabet, justement — appelé gothique ou fraktur (voir plus bas sur l'usage du mot gothique). On pouvait tout à fait défendre l'idée que le fraktur était un alphabet différent de l'alphabet latin, qui se trouve être en correspondance naturelle avec lui, mais de la façon dont les alphabets devanāgarī et bengali sont en correspondance. Le débat a fait rage entre les partisans d'écrire l'allemand en écriture gothique/fraktur et les partisans de l'écrire en écriture latine/antiqua, les nazis étaient d'abord favorable au fraktur puis ont brutalement retourné leur veste, et à la fin de la seconde guerre mondiale l'allemand s'écrivait en alphabet latin (ou faut-il dire en police antiqua ?). Mais, comme le runique (ᚠᚢᚦᚨᚱᚴ) qui est pourtant assez bien en correspondance avec l'alphabet latin, le gothique aurait très bien pu entrer dans Unicode séparément de l'alphabet latin…

Alors là il faut que je revienne un peu au Club Contexte, qui a plein de précisions à apporter. (1º) Il y a bien des caractères gothiques (fraktur) dans Unicode, par exemple le ‘𝔖’ U+1D516 MATHEMATICAL FRAKTUR CAPITAL S que j'ai utilisé tout récemment pour désigner le groupe symétrique. Mais il ne s'agit pas de lettres, il s'agit de symboles mathématiques : donc si j'écris 𝔣𝔯𝔞𝔨𝔱𝔲𝔯, je n'ai pas écrit le mot fraktur en fraktur, j'ai écrit une succession (peut-être un produit ?) de symboles mathématiques qui se trouvent venir de l'alphabet fraktur (donc mon usage pour le groupe symétrique est légitime, mais pas pour écrire de l'allemand). Vous vous doutez bien que plein de gens s'assoient sur cette subtilité et brûleront certainement en enfer pour avoir perverti le Saint Standard d'Unicode. (2º) Il y a aussi un alphabet gothique dans Unicode, mais c'est le vrai alphabet gothique, celui qui sert à écrire la langue gothique (la langue des goths, quoi), pas le style gothique d'écriture qui servait pour l'allemand (et pas que pour l'allemand). La langue gothique est certes germanique mais d'une branche de la famille germanique différente de celle qui a donné l'allemand : ce n'est pas l'ancêtre de l'allemand. Remarquez que cet alphabet gothique est lui aussi raisonnablement en correspondance avec l'alphabet latin ou runique, donc je pourrais tout à fait lancer l'idée d'écrire l'allemand en alphabet gothique juste pour que tout le monde soit bien confus. 𐍅𐌰𐍂𐌿𐌼 𐌳𐌴𐌽𐌽 𐌽𐌹𐌲𐌷𐍄 ? (3º) Ayant compris que l'alphabet gothique ne désigne pas ce que les gens imaginent, vous vous dites peut-être que vous allez parler de police gothique pour éviter l'ambiguïté ? Fatale erreur, le Club Contexte a prévu ce coup-là aussi : pour les typographes, une police gothique ou grotesque comme Franklin Gothic ou Akzidenz-Grotesk, c'est une police linéale, c'est-à-dire, essentiellement, sans empattement, ou un style particulier de linéale. (Je me souviens avoir été tout heureux de découvrir un nom en gothic dans une liste de jeux de polices sur mon ordinateur quand j'étais petit, et tout déçu de découvrir qu'elle ne collait franchement pas avec ce que j'avais envie d'appeler gothique.) Je ne sais pas comment on est arrivé à un tel degré de confusion, mais le Club Contexte a vraiment fait fort, là.

(En fait, le mot gothique est un roman à lui tout seul, qui veut tout dire et n'importe quoi, entre le peuple germanique à l'origine du mot, une forme d'architecture médiévale qui a été nommée au XVIe siècle en référence à la peuplade en question de façon péjorative comme on a nommé les vandales d'après les Vandales, le style d'écriture comme le fraktur nommé à peu près au même moment et pour à peu près les mêmes raisons, puis un genre littéraire notamment anglais du XVIIIe et XIXe siècles, sans doute inspiré par l'architecture médiévale, et typifié notamment par Horace Walpole, Ann Radcliffe, Mary Shelley, Edgar Poe et Bram Stoker, et au bout du compte on se retrouve avec les polices linéales, un trop célèbre tableau de Grant Wood, et des jeunes qui s'habillent en cuir noir et sont fascinés par les vampires : le rapport avec les goths a vraiment été perdu dans tellement de rebondissements.)

Mais laissons de côté les goths et revenons aux alphabets latin, grec, cyrillique et phonétique. Contrairement aux alphabets, disons, arabe, hébreu, devanāgarī, runique ou gothique (celui des goths), il y a clairement un « style » commun aux alphabets latin, grec, cyrillique et phonétique. C'est-à-dire qu'on a envie qu'une seule et même police de caractères les couvre tous à la fois, et que si on les mélange on n'ait pas l'impression d'un saut de style déplaisant d'une langue à l'autre. C'est-à-dire que même si on les a désunifiées, on veut quand même que ‘A’, ‘Α’ et ‘А’ soient graphiquement identiques : c'est une question d'esthétique typographique (et on veut avoir un même choix de polices, ou en tout cas des représentants des principaux types de polices, avec et sans empattement, couvrant ces alphabets à la fois). C'est encore plus important pour la phonétique, où les symboles dérivés de l'alphabet latin doivent se mêler harmonieusement à l'alphabet latin si j'ose dire « normal » (sans même compter les langues dans lesquelles les symboles phonétiques sont vraiment des lettres).

Ça a un sens de vouloir des polices grotesques, garaldes ou didones pour les alphabets latin, grec et cyrillique, ça n'en a pas trop pour l'alphabet arabe, où les styles, en tout cas les styles d'écriture, (nasẖ, nastaʿlīq, dīwānī, ṯuluṯ, ruqʿaẗ…) sont complètement différents de ceux des polices pour l'alphabet latin ; même pour l'écriture du chinois, japonais ou coréen, qui ont partiellement convergé avec les styles occidentaux, ce qui explique l'existence de polices gothiques (c'est-à-dire linéales, cf. ci-dessus) par oppositions à des polices dans le style dynastie Ming, ça peut avoir un sens d'essayer d'harmoniser un peu les styles, mais je ne crois pas que ça ait beaucoup de sens de vouloir qu'une même police couvre l'alphabet latin et les syllabaires japonais. Il n'y a guère que l'arménien que je pourrais imaginer vouloir aligner complètement avec le style des alphabets latin, grec et cyrillique (par exemple pour que le ‘օ’ U+0585 ARMENIAN SMALL LETTER OH soit graphiquement identique au ‘o’ latin et le ‘հ’ U+0570 ARMENIAN SMALL LETTER HO au ‘h’ latin). Mais restons-en au latin, grec et cyrillique (avec leurs ramifications bizarres comme l'alphabet phonétique) : on a envie que des dessins de différents caractères de ces alphabets soient exactement identiques. Mais lesquels au juste ?

On a attiré mon attention sur ce joli diagramme de Venn qui prétend montrer les lettres en commun entre différents sous-ensembles de ces alphabets majuscules — c'est-à-dire quels glyphes sont des capitales de l'alphabet latin, de l'alphabet grec, de l'alphabet cyrillique tel qu'utilisé en russe, ou de plusieurs ou tous de ces alphabets à la fois. Mais ce qui est peut-être encore plus intéressant pour montrer la complexité de la question, c'est de comparer le diagramme en question avec celui-ci qui fait la même chose mais dans des variantes de polices cherchant à distinguer autant que possible les alphabets en question. Impossible, donc, de savoir si le ‘Y’ (U+0059 LATIN CAPITAL LETTER Y) ‘Υ’ (U+03A5 GREEK CAPITAL LETTER UPSILON) et ‘У’ (U+0423 CYRILLIC CAPITAL LETTER U) sont identiques : ils pourraient avoir tous les trois exactement le même glyphe comme ils pourraient avoir trois glyphes différents même dans une unique police couvrant les trois alphabets.

Même avec les deux variantes, il y a plein de choses que ce diagramme de Venn ne montre pas. Pour commencer, le cyrillique sert dans plein d'autres langues que le russe, et il y a beaucoup plus de variabilité dans le répertoire de lettres de l'alphabet cyrillique que dans les lettres de l'alphabet latin ou grec. Enfin, pour le latin, je me mouille un peu : Unicode inclut une quantité fabuleuse de machins dont je n'ai aucune idée d'où ils sortent, comme un ‘Ƃ’ U+0182 LATIN CAPITAL LETTER B WITH TOPBAR qui n'est pas la lettre cyrillique ‘Б’ U+0411 CYRILLIC CAPITAL LETTER BE mais une lettre latine lui ressemblant exactement : le Club Contexte se marre énormément : donc techniquement il faudrait modifier le diagramme de Venn pour mettre cette lettre dans l'intersection latin-cyrillique. Mais je n'ai pas le temps de vous parler des monstrueux hybrides latin-cyrillique inventés par des chinois fous. Je pourrais évoquer le ‘Þ’, qui est une lettre latine pas si exotique que ça (U+00DE LATIN CAPITAL LETTER THORN, elle sert en vieil anglais et en islandais moderne) mais dont la forme est aussi celle d'une lettre grecque complètement fumée de l'espace, ‘Ϸ’ (U+03F7 GREEK CAPITAL LETTER SHO), qui sert, enfin, servait, à écrire le bactrien. Mais on peut supposer que ces machins ne sont quand même pas, ahem, très fréquents, donc cachons-les sous le tapis. En revanche, pour le cyrillique, l'alphabet russe actuel est vraiment très loin de représenter tous les caractères même vraiment peu exotiques de l'alphabet cyrillique (et c'est pour ça que le diagramme de Venn représente les alphabets latin, grec et russe) : en ukrainien et en biélorusse, il y a un ‘І’ (U+0406 CYRILLIC CAPITAL LETTER BYELORUSSIAN-UKRAINIAN I), et on peut dire en première approximation que les lettres ‘И’/‘Ы’ du russe (i « mou » et i « dur ») correspondent aux lettres ‘І’/‘Ы’ en biélorusse (où il n'y a pas de ‘И’) et ‘І’/‘И’ en ukrainien (où il n'y a pas de ‘Ы’ ; remarquez que la lettre qui sert au i « mou » en russe sert au i « dur » en ukrainien, c'est vraiment malin, ça, merci de votre contribution au Club Contexte les gars ; enfin, c'est pas plus mal que le ‘Ы’ russe pour commencer, qui historiquement est le digraphe ‘ЪІ’ et a été déformé en une lettre ‘Ы’ qui représente un i « dur » en combinant deux sons « mous » — passons).

Il y aurait plein de choses à dire dans l'histoire de l'alphabet cyrillique : contrairement aux alphabets grec et latin, son évolution est raisonnablement récente et donc d'autant mieux documentée (et la distinction majuscule/minuscule existait dès le départ). Par exemple, juste pour parler du russe, la lettre ‘Я’ (U+042F CYRILLIC CAPITAL LETTER YA, qui est souvent considérée dans les pays ignorants de l'alphabet cyrillique comme « emblématique » du russe et imaginée comme une sorte de ‘R’ parce que ça y ressemble à l'envers — je déteste particulièrement quand les publicitaires français essayent de « faire russe » en mettant des ‘R’ et des ‘N’ à l'envers, parce que je n'arrive vraiment pas à penser à ‘Я’ et ‘И’ comme des consonnes), la lettre ‘Я’, donc, est essentiellement une invention de Pierre le Grand (ou en tout cas de son époque), ce n'est pas si vieux que ça : avant, on écrivait quelque chose comme ‘Ѧ’ (U+0466 CYRILLIC CAPITAL LETTER LITTLE YUS) ou ‘Ѩ’ (U+0468 CYRILLIC CAPITAL LETTER IOTIFIED LITTLE YUS) ou ‘Ꙗ’ (U+A656 CYRILLIC CAPITAL LETTER IOTIFIED A — cette dernière a d'ailleurs mis beaucoup plus de temps à intégrer Unicode, sans doute parce que des gens considéraient qu'il fallait l'amalgamer avec le ‘Я’), le choix n'était pas forcément fait très systématiquement ; de ce que j'ai compris (mais voir ici pour une discussion que j'ai eue avec des gens plus savants que moi), le ‘Ѧ’ (« petit yus ») désignait en vieux slavon une voyelle nasale pas très claire, et le ‘Ѩ’ était sa variante « yodisée » (en gros précédée d'une semi-voyelle /i/~/j/), tandis que ‘Ꙗ’ (le a yodisé) était à peu près l'équivalent du ‘Я’ russe actuel, mais ces lettres avaient plus ou moins fusionné en russe et étaient devenues (quasi ?) interchangeables : une réforme orthographique les a toutes remplacées par ‘Я’, qui est une sorte de variante graphique de tous ces caractères (et n'a donc rien à voir avec un ‘R’). Et jusqu'à 1917, le russe avait encore un ‘І’ (essentiellement utilisé devant les voyelles) en plus du ‘И’/‘Ы’, et aussi un ‘Ѣ’ (U+0462 CYRILLIC CAPITAL LETTER YAT, phonétiquement équivalent au ‘Е’). Quant à la lettre ‘У’ (U+0423 CYRILLIC CAPITAL LETTER U), qui ressemble vaguement ou totalement à un ‘Y’, elle vient en fait d'un digraphe ‘ОУ’/‘Ѹ’/‘Ꙋ’, essentiellement omicron+upsilon, transformé en ligature où le omicron a plus ou moins disparu (donc ce n'est pas tant un cognat du ‘Υ’ grec que d'une combinaison dont le ‘Υ’ faisait partie).

Parlant de digraphes qui se transforment en ligatures et en lettres, il y a le cas bizarre du ‘ij’ en néerlandais, qui est normalement considéré comme une seule lettre, qui peut être écrit en ligature et du coup recevoir son propre symbole Unicode, ‘ĳ’ (U+0133 LATIN SMALL LIGATURE IJ) ou, en fait, être transformé en ‘ÿ’ ou simplement ‘y’ parce que quand on écrit ‘ij’ suffisamment serré, ça devient essentiellement ‘ÿ’ ; écrire Frankrÿk ou Frankryk (au lieu de Frankrijk) pour la France (= royaume des Francs) a l'air passablement désuet en néerlandais (la question de savoir si ‘ij’ et ‘y’ sont la même chose ou non est une de ces questions byzantines, pardon, bijzantines, capables de faire couler beaucoup plus d'encre qu'elles n'en valent), mais en afrikaans et peut-être aussi en flamand-de-belgique je crois comprendre que ça reste l'orthographe normale. Mais comme ‘ij’ est considéré comme une seule lettre, sa majuscule est ‘IJ’, qu'on l'écrive avec deux caractères séparés comme je viens de le faire ou comme une ligature ‘Ĳ’ (U+0132 LATIN CAPITAL LIGATURE IJ) ou comme ‘Ÿ’ ou simplement ‘Y’. D'où : IJsselmeer. Mais il y aussi des langues qui ont des digraphes considérés comme une seule lettre et qui prennent une forme spéciale majuscule+minuscule : par exemple ‘ǈ’ (U+01C8 LATIN CAPITAL LETTER L WITH SMALL LETTER J) qui est distinct à la fois de ‘Ǉ’ (U+01C7 LATIN CAPITAL LETTER LJ) et de ‘ǉ’ (U+01C9 LATIN SMALL LETTER LJ), pour correspondre en croate à la lettre ‘Љ’ du serbe (représentant le son noté phonétiquement par le caractère ‘ʎ’ U+028E LATIN SMALL LETTER TURNED Y, qui est censé être un ‘y’ retourné mais dont on peut soupçonner que la ressemblance avec un ‘λ’ n'est pas purement accidentelle).

Je digresse un peu trop, mais revenons au latin, grec et cyrillique. Au contraire des lettres qui se trouvent accidentellement se ressembler et qui n'ont rien à voir (j'ai donné l'exemple du ‘H’ latin et du ‘Η’ grec, qui sont raisonnablement apparentés, et du ‘Н’ qui ne leur ressemble que par accident), il y a des lettres qui sont moralement « essentiellement la même » (au sens faible où ‘A’, ‘Α’ et ‘А’ sont « essentiellement la même » lettre) mais que des habitudes typographiques font qu'on les note différemment : le ‘Λ’ grec (U+039B GREEK CAPITAL LETTER LAMDA) et le ‘Л’ cyrillique (U+041B CYRILLIC CAPITAL LETTER EL) sont « essentiellement » la même lettre, lambda, mais il se trouve que le ‘Л’ cyrillique est beaucoup plus souvent écrit avec une barre gauche vaguement courbée et une barre droite verticale ; les gens qui ont fait le diagramme de Venn mentionné plus haut ont trouvé des exemples (comme sur l'inscription Ленин au mausolée de Lénine) où il est fait comme un ‘Λ’ grec. Mais ils distinguent quand même le ‘Д’ cyrillique (U+0414 CYRILLIC CAPITAL LETTER DE) du ‘Δ’ grec (U+0394 GREEK CAPITAL LETTER DELTA) parce que le premier a apparemment toujours des petits empattements qui descendent et pas le second : c'est pourtant vraiment un accident typographique, et je suis sûr que, comme toujours ne signifie jamais toujours, on doit bien trouver quelque part, quelqu'un, qui a écrit un ‘Д’ cyrillique sans ces empattements et qui ressemble exactement à un ‘Δ’ grec. Tiens, à ce sujet, comment est-ce que les Grecs parlent dans la traduction russe des aventures d'Astérix et Obélix ?

La notion même de lettres cognates n'est, bien sûr, pas bien définies : quand l'alphabet cyrillique a été inventé, le ‘Β’ (bêta) grec se prononçait /v/ (c'est le cas en grec moderne, où le son /b/ est transcrit μπ [correction : et pas μβ comme je l'avais écrit]), et donc la lettre ‘В’ du cyrillique désigne le son /v/, mais comme les langues slaves avaient un vrai son /b/, on a inventé la lettre ‘Б’ pour le désigner (et comme je l'ai mentionné plus haut, des chinois ont été assez fous pour la mélanger avec l'alphabet latin ce qui fait qu'Unicode a dû inventer le symbole frankensteinien de ‘Ƃ’ latin, mais oublions-le bien vite). Faut-il considérer que c'est le ‘В’ ou le ‘Б’ cyrillique qui est le frère du ‘B’ latin ? Difficile à dire !

Bon, mais ensuite, il y a les formes cursives, et si vous trouvez que le Contexte n'était pas encore assez compliqué comme ça, les choses deviennent encore pires.

Au sein d'un même alphabet, il y a souvent beaucoup de variations dans le cursif, encore plus bizarres qu'entre les polices d'imprimerie normales (je ne sais pas vraiment comment dire « non-cursif » de façon pas tarabiscotée : à l'école primaire en France on me faisait dire « script », mais en anglais c'est justement synonyme de « cursif » et le Club Contexte a encore frappé). Je suis allé à l'école primaire en France et au Canada, et on m'a fait apprendre deux écritures cursives qui se ressemblent pas mal en minuscules mais sont sacrément différentes en majuscules : en France ça ressemblait à peu près à ce qu'on trouve ici (je ne trouve pas d'image sur Wikimédia commons ou autre), sauf peut-être pour le ‘Q’ majuscule que je crois me rappeler ressemblant vaguement à un ‘2’ ; au Canada, c'était plutôt comme ceci, et j'apprends sur Wikipédia que ce style d'écriture a un nom : le D'Nealian (D'Nealien ?). Le ‘I’ et plus encore le ‘G’ majuscules sont vraiment bizarres et contre-intuitifs, je ne sais pas qui a fumé des formes pareilles. (Mais ce n'est pas une blague, ma tante canadienne, qui a une écriture très jolie mais assez difficile à lire quand on n'a pas l'habitude, fait vraiment ses ‘G’ comme ça.)

J'ai évoqué plus haut le fraktur, une forme d'écriture gothique (pour au moins un des trois ou quatre sens complètement confusants du mot gothique) : si on considère que c'est un alphabet spécifique, cet alphabet a aussi une forme cursive, le sütterlin (ou plus généralement, le kurrent), parfois considéré comme du « gothique cursif », et qui était courant en Allemagne avant la seconde guerre mondiale. Quand j'étais lycéen, je m'étais amusé à noter mes cours d'allemand, puis mes cours de toutes sortes d'autres matières, en sütterlin, juste par perversité et pour empêcher qu'on puisse me relire ; mais le sütterlin peut éventuellement avoir un intérêt pour un mathématicien, c'est de fournir un équivalent manuscrit de lettres gothiques (qui sont essentiellement impossibles à faire si on n'a pas une plume capable de faire des traits de différentes épaisseurs, et notamment à la craie au tableau noir). Le fait que le ‘h’ minuscule en sütterlin ait la forme d'une des variantes possible du ‘f’ minuscule cursif latin (enfin, non-sütterlin, quoi) doit nous rappeler qu'il faut faire vraiment gaffe avec les identifications de formes.

Et si on voulait faire un diagramme de Venn entre les alphabets latin et cyrillique cursifs (je laisse de côté le grec, parce que je ne connais vraiment pas le cursif grec), il serait bien différent du diagramme pour les majuscules d'imprimerie. Pour commencer, il n'est pas bien défini parce que comme ce dessin le montre, la forme cursive de certaines lettres, en l'occurrence ‘Д’, dépend de la langue qu'on écrit. Mais même si on se limite au russe, des ressemblances inattendues apparaissent avec l'alphabet latin qui sont tout à fait différentes de ce qu'on voyait en majuscules d'imprimerie droites : le ‘д’ cyrillique cursif ressemble à (ou au moins, est susceptible de coïncider avec) un ‘g’ latin cursif (je serais curieux de savoir comment il a évolué dans ce sens), le ‘и’ cyrillique cursif ressemblera typiquement à un ‘u’ latin cursif, le ‘п’ cyrillique cursif ressemble à un ‘n’ latin cursif, le ‘т’ cyrillique cursif ressemble à un ‘m’ latin cursif, etc. Rien qu'en italiques, le ‘д’ cyrillique italique (essayons en HTML : ‘д’) va avoir tendance à ressembler au symbole ‘∂’ qui peut surprendre à la fois eu égard à sa forme non-italique (droite ? romane ? comment doit-on dire ?) ‘д’ et à sa forme cursive (dont je viens de dire qu'elle coïncide typiquement avec un ‘g’ latin cursif) ! Je me souviens qu'en cours de russe au lycée, certains de mes condisciples, voyant le ‘д’ italique pour la première fois (notre manuel nous avait montré l'alphabet d'imprimerie droit et l'alphabet cursif, mais pas l'alphabet italique, qu'il utilisait pourtant) faisaient preuve de dyslexie et le prenaient pour un ‘б’. Et comme pour le cursif, le ‘и’ cyrillique italique ressemblera typiquement à un ‘u’ latin italique, le ‘п’ cyrillique italique ressemble à un ‘n’ latin italique et le ‘т’ cyrillique italique ressemble souvent à un ‘m’ latin italique.

Bon, je vais arrêter là le catalogue d'anecdotes et de bizarreries, et je vais me retenir très fort de vous parler du syllabaire cherokee qui est pourtant vraiment la plus magnifique invention du Club Contexte de tous les temps (avant de savoir qu'il avait été créé par quelqu'un qui avait vu l'alphabet latin mais ne le connaissait pas, je pensais que c'était une vaste blague). Je ne vous ai pas parlé de l'histoire de l'alphabet latin (pour ça, je vais vous renvoyer à cette vidéo), avec la bizarre note en bas de page que sont les lettres claudiennes. Et je n'ai pas évoqué le ‘ß’ allemand (qui s'appelle s+z mais représente s+s, et d'ailleurs les règles orthographiques à son sujet ont changé parce que ce serait trop facile sinon) et l'épineuse question de savoir s'il existe un ‘ß’ majuscule (Unicode a longtemps considéré que non avant de capituler et de créer le ‘ẞ’ U+1E9E LATIN CAPITAL LETTER SHARP S). Je n'ai pas non plus évoqué l'alphabet Fraser pour écrire le Lisu (‘ꓮ’ U+A4EE LISU LETTER A devrait-il être amalgamé avec ‘A’ ?), ni les alphabets cariens. J'ai l'impression qu'il devrait être possible d'arranger toutes mes remarques désordonnées en quelque chose d'un peu systématique (une théorie de la ressemblance et de la dissemblance, de l'équivalence et de la non-équivalence, des lettres), mais je ne sais pas comment m'y prendre, alors pour l'instant cela reste un catalogue hétéroclite et sans queue ni tête, mais où le Club Contexte s'amuse comme un petit fou.

Mais une chose reste sûre : décider ce que cela signifie que deux lettres soient ou ne soient pas la même est un problème extrêmement complexe, et souvent toutes les décisions possibles sont pourries.