David Madore's WebLog: Fallait-il ajouter plein de pictogrammes dans Unicode ?

Les lecteurs réguliers de ce blog savent bien que je suis un zélé fidèle de l'église de l'Universelle Numérotation en Intelligence Commune Offerte par les Dieux de l'Encodage, loué soit le nom du Saint Standard et louée soit sa version 6.0. Il faut cependant que je reconnaisse parfois que ma foi hésite et qu'il me prend l'audace de m'interroger sur l'opportunité de telle ou telle décision.

Un des moments qui m'a ainsi fait vaciller a été l'addition dans Unicode 6.0 (environ l'an dernier) de centaines de caractères dans deux blocs appelés Emoticons (1F600–1F64F) et surtout Miscellaneous Symbols and Pictographs (1F300–1F5FF), parmi lesquels on trouve des choses aussi saugrenues et surprenantes que :

U+1F307 SUNSET OVER BUILDINGS (🌇)
U+1F365 FISH CAKE WITH SWIRL DESIGN (🍥)
U+1F391 MOON VIEWING CEREMONY (🎑)
U+1F46F WOMAN WITH BUNNY EARS (👯)
U+1F47D EXTRATERRESTRIAL ALIEN (👽)
U+1F47E ALIEN MONSTER (👾)
U+1F496 SPARKLING HEART (💖)
U+1F4B9 CHART WITH UPWARDS TREND AND YEN SIGN (💹)
U+1F5FC TOKYO TOWER (🗼)
U+1F605 SMILING FACE WITH OPEN MOUTH AND COLD SWEAT (😅)
U+1F61D FACE WITH STUCK-OUT TONGUE AND TIGHTLY-CLOSED EYES (😝)
U+1F63B SMILING CAT FACE WITH HEART-SHAPED EYES (😻)
U+1F64A SPEAK-NO-EVIL MONKEY (🙊)
U+1F64C PERSON RAISING BOTH HANDS IN CELEBRATION (🙌)

…ce n'est pas une blague. Et encore, je ne suis pas sûr d'avoir bien fait le tour des plus ridicules du lot. Je constate d'ailleurs en écrivant ceci que j'ai apparemment sur mon système une police contenant tous ces trucs (enfin, au moins j'ai quelque chose de plausible qui s'affiche : je ne sais pas bien à quoi une moon viewing ceremony est censée ressembler même en regardant le Standard et en zoomant dessus, mais c'est peut-être bien ce que mon navigateur affiche ; par contre mon alien monster est clairement différent de celui du Standard) ; je ne sais pas d'où elle sort.

Bref, ma première réaction a été d'être partagé entre l'amusement (oooooh, plein de nouveaux caractères brillants avec lesquels faire joujou !) et l'exaspération (mais ils ont fumé la moquette, ou quoi ? qu'est-ce que c'est que toutes ces conneries, et où est le caractère UNICODE STANDARD FINALLY GONE BANANAS ?).

L'origine de tous ces caractères brillants, comme de beaucoup de gadgets clignotants en général, et comme on s'en rend compte en regardant un peu le biais culturel qui préside au choix des concepts dessinés (sans même aller chercher quelque chose d'aussi évident que la tour de Tōkyō qui est certes accompagnée d'une statue de la Liberté mais pas des grandes pyramides, de Big Ben, d'une tour Eiffel ou du Golden Gate), est bien entendu le Japon : plein de « caractères », sous formes d'échappements Shift-JIS spéciaux et plus ou moins normalisés, qui étaient déjà utilisés pour échanger des petits dessins dans des petits messages téléphoniques (pas des SMS parce que ce n'est pas ce qui est utilisé au Japon, mais peu importe). L'argument en faveur de leur encodage dans Unicode est donc évident : il y a un standard, ou un quasi-standard, qui les répertorise, et Unicode a pour but de devenir le standard ultime de représentation des caractères dans les échanges d'information, donc il fallait bien qu'il absorbât tout ça. En l'occurrence, je crois comprendre que ce sont Google (pour Android) et Apple (pour l'iPhone) qui ont présenté des demandes dans ce sens (voire des propositions formelles) au consortium Unicode.

Le principal argument contraire, ce n'est pas celui du ridicule ni même du biais culturel (de toute façon il y a des dizaines de milliers de caractères CJK, alors le biais culturel…). C'est plutôt celui de la pente glissante : oui mais si on commence à avoir dans le standard Unicode une cérémonie de contemplation de la lune, un alien ou deux, une femme avec des oreilles de lapin, un chat avec des yeux en forme de cœur et la tour de Tōkyō, pourquoi pas aussi Darth Vader, Flash Gordon, une crevette boxeuse, une otarie écoutant de la musique et l'alien de Reddit ? Si Unicode commence à devenir un répertoire de tous les pictogrammes de l'humanité, 17×65536 codepoints ne suffiront pas, et si ce sont tous les concepts, 2³¹ non plus. La réponse du Standard à ce genre d'arguments a toujours été : le fait que nous ayons encodé X n'est en aucune cas une garantie d'encoder X′ très proche de X, même si ça peut sembler « logique » — et donc de rejeter systématiquement tous les arguments à base de mais puisque vous avez encodé Truc, vous devriez aussi logiquement encoder Machin. Ce n'est pas furieusement satisfaisant : il y a plein de manques illogiques, et parfois ils finissent par céder, par exemple ils ont fini par mettre un U+2E18 INVERTED INTERROBANG (⸘) (ce qui a causé une certaine réjouissance auprès de normaliens que je connais) après avoir longtemps soutenu qu'il n'y avait aucune raison d'être logique et que ce n'était pas parce que le point d'interrogation et le point d'exclamation avaient leur version inversée que leur superposition devait l'avoir aussi, jusqu'à preuve que des espagnols utilisent vraiment l'interrobang. Mais s'agissant des emojis, ces arguments doivent céder devant le fait que toutes ces choses sont vraiment utilisées (ce qui, pour l'interrobang inversé, reste quand même un peu à prouver). Bon, mon Android ne permet pas encore de les saisir (du moins de façon commode), et n'est même pas foutu de les afficher, mais j'imagine qu'au fil des versions ça viendra. Il semble que Mac OS 10.7 (Lion) va dans ce sens.

La réponse officielle d'Unicode aux questions qu'on peut se poser sur les emojis est ici, mais il est aussi intéressant de jeter un œil aux commentaires officiels des organismes de standardisation nationaux lors des votes pour ISO/IEC 10646:2003. On y apprend par exemple que l'Allemagne à demander à renommer U+1F471 de WESTERN PERSON à PERSON WITH BLOND HAIR (pour éviter des débats racistes douteux sur ce qu'est un occidental — ceci dit, je ne sais pas dans quel sens le changement a plus de chances d'éviter ce débat), et qu'il y a eu toutes sortes d'autres arguties sur les noms, notamment entre le Royaume-Uni et les États-Unis pour l'orthographe de sulphur/sulfur. En fouillant un peu, on trouve d'autres documents de travail dans le même coin (malheureusement pas référencés de façon systématique, ou alors je n'ai pas trouvé) qui donnent une petite idée de ce que les débats ont pu être. Par exemple celui-ci, qui émane des organismes de standardisation allemand et irlandais et qui fait tout un tas de commentaires en cours de standardisation, qui me semblent tout à fait sensés et intelligents (et qui ont été largement suivis), sur la proposition initiale (du moins je suppose que c'est ça — malheureusement elle n'est pas annotée).

Ce qui sera intéressant, c'est de voir quel usage les non-japonais vont faire de ces symboles : leur usage va-t-il se répandre, va-t-on voir les webforums en anglais fleurir de toutes sortes de pictogrammes dans ce jeu, ou bien l'usage de ceux-ci restera-t-il cantonné au Japon ? Pour l'instant il est encore trop tôt pour le dire, il faut probablement que les polices soient un peu plus diffusées. Si cela se produit, et même si le jeu des caractères ainsi fournis est bizarre, idiosyncratique et illogiquement incohérent, je trouve que ce ne sera pas forcément un mal, toute forme d'expressivité gagnée dans la communication électronique me semble plutôt bonne à prendre. Actuellement les webforums semblent surtout prendre un jeu de smileys plus ou moins standardisé (plutôt moins que plus), saisis à la souris, temporairement encodés sous forme de succession de caractères ASCII (évidente quand il s'agit de :-) mais parfois juste un code ad hoc) et finalement affichés sous fome de petites images. Eh bien je préférerais largement des caractères Unicode pour tout ça ! Pour écrire ce blog, je tape des balises spéciales comme <d:smiley-wink /> (ce qui donne : ), converties en smileys par mon moteur de blog (celui que depuis des années je dois réécrire entièrement) et affichées sous forme d'images avec un attribut alt pour les rendre lisibles sur un navigateur texte pur et aussi un title qui explique un peu plus ce que le smiley doit représenter. De même, je ne serai(s) pas fâché de pouvoir passer à de vrais caractères Unicode.

Ajout : Apparemment la police que j'ai pour représenter ces caractères s'appelle Symbola, elle est disponible ici (merci à George Douros !), et packagée par Debian dans le paquet ttf-ancient-fonts. Et comme exemple d'affichage des caractères donnés ci-dessus comme exemple, voici à quoi ça ressemble (c'est plus du clipart à ce niveau-là) :