Les lecteurs réguliers de ce blog savent bien que je suis un zélé fidèle de l'église de l'Universelle Numérotation en Intelligence Commune Offerte par les Dieux de l'Encodage, loué soit le nom du Saint Standard et louée soit sa version 6.0. Il faut cependant que je reconnaisse parfois que ma foi hésite et qu'il me prend l'audace de m'interroger sur l'opportunité de telle ou telle décision.
Un des moments qui m'a ainsi fait vaciller a été l'addition dans Unicode 6.0 (environ l'an dernier) de centaines de caractères dans deux blocs appelés Emoticons (1F600–1F64F) et surtout Miscellaneous Symbols and Pictographs (1F300–1F5FF), parmi lesquels on trouve des choses aussi saugrenues et surprenantes que :
- U+1F307 SUNSET OVER BUILDINGS (🌇)
- U+1F365 FISH CAKE WITH SWIRL DESIGN (🍥)
- U+1F391 MOON VIEWING CEREMONY (🎑)
- U+1F46F WOMAN WITH BUNNY EARS (👯)
- U+1F47D EXTRATERRESTRIAL ALIEN (👽)
- U+1F47E ALIEN MONSTER (👾)
- U+1F496 SPARKLING HEART (💖)
- U+1F4B9 CHART WITH UPWARDS TREND AND YEN SIGN (💹)
- U+1F5FC TOKYO TOWER (🗼)
- U+1F605 SMILING FACE WITH OPEN MOUTH AND COLD SWEAT (😅)
- U+1F61D FACE WITH STUCK-OUT TONGUE AND TIGHTLY-CLOSED EYES (😝)
- U+1F63B SMILING CAT FACE WITH HEART-SHAPED EYES (😻)
- U+1F64A SPEAK-NO-EVIL MONKEY (🙊)
- U+1F64C PERSON RAISING BOTH HANDS IN CELEBRATION (🙌)
…ce n'est pas une blague. Et encore, je ne suis pas sûr
d'avoir bien fait le tour des plus ridicules du lot. Je constate
d'ailleurs en écrivant ceci que j'ai apparemment sur mon système une
police contenant tous ces trucs (enfin, au moins j'ai quelque
chose de plausible qui s'affiche : je ne sais pas bien à quoi
une moon viewing ceremony
est censée ressembler
même en regardant le Standard et en zoomant dessus, mais c'est
peut-être bien ce que mon navigateur affiche ; par contre
mon alien monster
est clairement différent de
celui du Standard) ; je ne sais pas d'où elle sort.
Bref, ma première réaction a été d'être partagé entre l'amusement
(oooooh, plein de nouveaux caractères brillants avec
lesquels faire joujou !
) et
l'exaspération (mais ils ont fumé la moquette, ou quoi ? qu'est-ce
que c'est que toutes ces conneries, et où est le caractère UNICODE
STANDARD FINALLY GONE BANANAS ?
).
L'origine de tous ces caractères brillants, comme de beaucoup de gadgets clignotants en général, et comme on s'en rend compte en regardant un peu le biais culturel qui préside au choix des concepts dessinés (sans même aller chercher quelque chose d'aussi évident que la tour de Tōkyō qui est certes accompagnée d'une statue de la Liberté mais pas des grandes pyramides, de Big Ben, d'une tour Eiffel ou du Golden Gate), est bien entendu le Japon : plein de « caractères », sous formes d'échappements Shift-JIS spéciaux et plus ou moins normalisés, qui étaient déjà utilisés pour échanger des petits dessins dans des petits messages téléphoniques (pas des SMS parce que ce n'est pas ce qui est utilisé au Japon, mais peu importe). L'argument en faveur de leur encodage dans Unicode est donc évident : il y a un standard, ou un quasi-standard, qui les répertorise, et Unicode a pour but de devenir le standard ultime de représentation des caractères dans les échanges d'information, donc il fallait bien qu'il absorbât tout ça. En l'occurrence, je crois comprendre que ce sont Google (pour Android) et Apple (pour l'iPhone) qui ont présenté des demandes dans ce sens (voire des propositions formelles) au consortium Unicode.
Le principal argument contraire, ce n'est pas celui du ridicule ni
même du biais culturel (de toute façon il y a des dizaines de milliers
de caractères CJK, alors le biais culturel…).
C'est plutôt celui de
la pente
glissante : oui mais si on commence à avoir dans le standard
Unicode une cérémonie de contemplation de la lune, un alien ou deux,
une femme avec des oreilles de lapin, un chat avec des yeux en forme
de cœur et la tour de Tōkyō, pourquoi pas aussi
Darth Vader, Flash Gordon, une crevette boxeuse, une otarie écoutant
de la musique et l'alien
de Reddit ? Si Unicode commence
à devenir un répertoire de tous les pictogrammes de l'humanité,
17×65536 codepoints ne suffiront pas, et si ce sont tous les concepts,
231 non plus. La réponse du Standard à ce genre
d'arguments a toujours été : le fait que nous ayons
encodé X n'est en aucune cas une garantie
d'encoder X′ très proche de X, même si ça
peut sembler « logique » — et donc de rejeter systématiquement
tous les arguments à base de mais puisque vous avez encodé Truc,
vous devriez aussi logiquement encoder Machin
. Ce n'est pas
furieusement satisfaisant : il y a plein de manques illogiques, et
parfois ils finissent par céder, par exemple ils ont fini par mettre
un U+2E18 INVERTED INTERROBANG (⸘) (ce qui a causé une certaine
réjouissance auprès de normaliens que je connais) après avoir
longtemps soutenu qu'il n'y avait aucune raison d'être logique et que
ce n'était pas parce que le point d'interrogation et le point
d'exclamation avaient leur version inversée que leur superposition
devait l'avoir aussi, jusqu'à preuve que des espagnols utilisent
vraiment l'interrobang. Mais s'agissant des emojis, ces arguments
doivent céder devant le fait que toutes ces choses
sont vraiment utilisées (ce qui, pour l'interrobang inversé,
reste quand même un peu à prouver).
Bon, mon Android ne permet pas
encore de les saisir (du moins de façon commode), et n'est même pas
foutu de les afficher, mais j'imagine qu'au fil des versions ça
viendra. Il semble que Mac OS 10.7 (Lion) va dans ce
sens.
La réponse officielle d'Unicode aux questions qu'on peut se poser
sur les emojis
est ici, mais
il est aussi intéressant de jeter un œil
aux commentaires
officiels des organismes de standardisation nationaux lors des
votes pour ISO/IEC 10646:2003. On y
apprend par exemple que l'Allemagne à demander à renommer U+1F471
de WESTERN PERSON
à PERSON WITH BLOND HAIR
(pour éviter
des débats racistes douteux sur ce qu'est un occidental
—
ceci dit, je ne sais pas dans quel sens le changement a plus de
chances d'éviter ce débat), et qu'il y a eu toutes sortes d'autres
arguties sur les noms, notamment entre le Royaume-Uni et les
États-Unis pour l'orthographe
de sulphur
/sulfur
. En
fouillant un peu, on trouve d'autres documents de travail dans le même
coin (malheureusement pas référencés de façon systématique, ou alors
je n'ai pas trouvé) qui donnent une petite idée de ce que les débats
ont pu être. Par
exemple celui-ci,
qui émane des organismes de standardisation allemand et irlandais et
qui fait tout un tas de commentaires en cours de standardisation, qui
me semblent tout à fait sensés et intelligents (et qui ont été
largement suivis), sur
la proposition
initiale (du moins je suppose que c'est ça — malheureusement
elle n'est pas annotée).
Ce qui sera intéressant, c'est de voir quel usage les non-japonais
vont faire de ces symboles : leur usage va-t-il se répandre, va-t-on
voir les webforums en anglais fleurir de toutes sortes de pictogrammes
dans ce jeu, ou bien l'usage de ceux-ci restera-t-il cantonné au
Japon ? Pour l'instant il est encore trop tôt pour le dire, il faut
probablement que les polices soient un peu plus diffusées. Si cela se
produit, et même si le jeu des caractères ainsi fournis est bizarre,
idiosyncratique et illogiquement incohérent, je trouve que ce ne sera
pas forcément un mal, toute forme d'expressivité gagnée dans la
communication électronique me semble plutôt bonne à prendre.
Actuellement les webforums semblent surtout prendre un jeu de smileys
plus ou moins standardisé (plutôt moins que plus), saisis à la souris,
temporairement encodés sous forme de succession de
caractères ASCII (évidente quand il s'agit
de :-)
mais parfois juste un code ad hoc) et
finalement affichés sous fome de petites images. Eh bien je
préférerais largement des caractères Unicode pour tout ça ! Pour
écrire ce blog, je tape des balises spéciales
comme <d:smiley-wink />
(ce qui donne :
), converties en smileys par mon moteur de blog
(celui que depuis des années je dois réécrire entièrement) et
affichées sous forme d'images avec un attribut alt
pour
les rendre lisibles sur un navigateur texte pur et aussi
un title
qui explique un peu plus ce que le smiley doit
représenter. De même, je ne serai(s) pas fâché de pouvoir passer à de
vrais caractères Unicode.
Ajout : Apparemment la police que j'ai pour
représenter ces caractères s'appelle Symbola, elle
est disponible ici
(merci à George Douros !), et packagée par Debian dans le
paquet ttf-ancient-fonts
. Et comme exemple d'affichage
des caractères donnés ci-dessus comme exemple, voici à quoi ça
ressemble (c'est plus du clipart à ce niveau-là) :