David Madore's WebLog: Les 18 voyelles cardinales

Je me passionne pour la phonétique un peu de la même manière que pour la typographie : apprendre à reconnaître précisément les sons que l'on entend ou que l'on prononce soi-même, c'est un peu comme apprendre à remarquer les caractéristiques des caractères écrits que l'on croise, c'est apprendre à développer son sens de l'observation sur quelque chose qu'on a facilement tendance à ignorer. (Cela peut devenir obsédant, d'ailleurs : comme Donald Knuth le faisait remarquer, I can't go to a restaurant and order food because I keep looking at the fonts on the menu — et je ne peux plus m'empêcher de faire toutes sortes d'observations sur la manière dont les gens parlent.) Et aussi bien pour apprendre à reconnaître les polices de caractères que pour identifier ou reproduire les propriétés phonétiques des sons du langage, il faut « faire ses gammes », c'est-à-dire, s'efforcer de se familiariser avec des points de référence standards : en typographie, les polices les plus courantes (Times, Helvetica, Palatino, Futura, Univers, Optima, etc.), et en phonétique, les sons de l'alphabet phonétique. Ici je vais parler un peu de 18 sons de référence appelés les voyelles cardinales.

La phonétique étant une discipline tout en nuances, ce n'est pas aussi facile qu'on pourrait le croire de définir sans ambiguïté ce qu'est une voyelle et une consonne[#]. Il y a tout de même une distinction concrète entre les unes et les autres, c'est que les consonnes sont assez bien séparées les unes des autres (il y a un ensemble assez discret de possibilités) tandis que les voyelles forment un espace continu. Toujours est-il que je voudrais parler ici un peu des voyelles.

Dimensions de l'espace des voyelles

La première question évidente est de déterminer la dimension de cet espace des voyelles, c'est-à-dire le nombre de caractéristiques indépendantes qu'elles peuvent avoir, un peu comme on détermine que l'espace des couleurs est de dimension 3. La réponse pour les voyelles est en plus de la longueur et de la hauteur, encore 2 ou 3 dimensions, voire un petit peu plus — l'incertitude vient du fait que certaines dimensions sont plus « étroites » en ce sens qu'elles permettent moins de variation, ou encore ne seront pas vraiment comptées dans la caractéristique de la voyelle.

Les deux dimensions complètement évidentes, et que j'écarte immédiatement, ce sont la longueur de la voyelle (ou quantité de celle-ci, c'est-à-dire le temps qu'elle dure) et sa hauteur (c'est-à-dire la note sur laquelle elle est prononcée) : ces paramètres sont importantes dans certaines langues qui peuvent contraster voyelles brèves et longues, et/ou donner un sens aux tons (hauteurs ou variations de hauteur). Ce qui reste quand on abstrait ses deux dimensions, donc ce qui m'intéresse principalement, s'appelle la qualité de la voyelle.

Les deux dimensions essentielles de la qualité des voyelles sont l'ouverture et l'avancement de celles-ci. Pour se faire une première idée de ces dimensions, disons que l'ouverture de la voyelle est ce qui distingue les mots français fi, fée et fait (à supposer que ces deux derniers soient distincts) ou encore fou et faux, voire folle si on omet la consonne finale de ce dernier : dans chacune de ces deux séries (fi/fée/fait d'une part et fou/faux/fo[lle] de l'autre), l'ouverture est croissante, c'est-à-dire qu'on a successivement une voyelle fermée, mi-fermée et mi-ouverte ; pour ce qui est de l'avancement, on contrastera fut et fou ou feu et faux ou encore [coi]ffeu[r] et fo[lle] : dans chacune de ces séries, on passe d'une voyelle antérieure/centralisée à une voyelle postérieure.

Sur le diagramme standard servant à positionner les voyelles, et que votre navigateur doit afficher à droite s'il supporte le SVG, et qu'on trouve sur Wikipédia sinon, l'ouverture est figurée verticalement (la ligne horizontale du haut correspondant aux voyelles fermées, la deuxième aux mi-fermées, la troisième aux mi-ouvertes, la quatrième aux ouvertes), et l'avancement est figuré horizontalement, avec à gauche les voyelles antérieures et à droite les postérieures.

À quoi correspondent, au juste, ces dimensions ? Essentiellement à la position de la mâchoire et de la langue dans la bouche : si on joue à Monsieur Jourdain en prononçant successivement fi/fée/fait, on s'aperçoit que la bouche est effectivement de plus en plus ouverte, et la langue de plus en plus abaissée, de même que si on prononce successivement fou/faux/fo[lle] ; en revanche, si on prononce successivement fut/fou ou feu/faux ou encore [coi]ffeu[r]/fo[lle], on constate que la langue recule vers l'arrière de la bouche, d'où le nom de voyelles postérieures pour les secondes. Plus exactement, ce qui importe est plutôt l'emplacement du point le plus fermé sur le passage de l'air depuis les cordes vocales, et c'est grosso modo la position de ce point que le diagramme des voyelles, avec ces deux dimensions, essaye de représenter de façon assez symbolique comme un trapèze.

Il y a cependant au moins une troisième dimension importante, parce que vous aurez remarqué que le diagramme fait figurer les symboles par paires : il s'agit de l'arrondissement de la voyelle. Cette fois-ci il s'agit plutôt de la forme des lèvres. Pour l'illustrer, même si la distinction n'est pas purement celle d'arrondissement, jouons encore à Monsieur Jourdain et comparez fi et fût en français, ou bien fée et feu, ou encore fait et [coi]ffeu[r] : dans le second élément de chaque paire, les lèvres se sont arrondies tandis que la langue est restée à peu près (mais pas exactement) au même emplacement. On figure généralement cette dimension en représentant les voyelles par paires, avec à gauche la non-arrondie et à droite l'arrondie. Il faut souligner que la distinction en voyelles arrondies et non-arrondies est une simplification de tout ce qu'on peut faire avec les lèvres en prononçant une voyelle : mais c'est une bonne première approximation.

Pour aller plus loin, il faudrait notamment distinguer l'arrondissement dit exolabial (ou par compression), qui est un simple rapprochement des lèvres (compression, donc), et l'arrondissement dit endolabial (ou par protrusion), où les lèvres forment une sorte de tube comme pour siffler ; j'ai tendance à considérer que l'arrondissement endolabial est une forme plus forte d'arrondissement que l'exolabial. En français comme en allemand, les voyelles arrondies antérieures (fut, feu) ont un arrondissement plutôt exolabial, alors que les postérieures (fou, faux) en ont un plutôt endolabial, même si la différence n'est pas très prononcée. Mais en comparant le /u/ du japonais (‘う’) au /u/ du français (ou), on peut remarquer qu'une des différences — même si ce n'est pas la seule — est que le /u/ français est endolabial alors que le /u/ japonais est exolabial, c'est-à-dire prononcé avec les lèvres plutôt rapprochées que véritablement arrondies ; à l'inverse, en comparant le /y/ du suédois (dans un mot comme flyta) avec le /y/ du français (flûte), on peut remarquer qu'une des différences est que le /y/ suédois est nettement endolabial alors que le /y/ français est plutôt exolabial [corrigé 2016-06-13 : j'avais écrit le contraire].

Et ce n'est pas encore tout : on peut aussi trouver une dimension de nasalisation, par laquelle le français distingue fait de feint ou faux de fond (dans les deux cas la correspondance entre la non-nasale et la nasale n'est pas parfaite, cependant) ; il y a aussi la rhoticité, qui n'est pas représentée en français, mais qui explique la distinction entre tuna et tuner dans une prononciation américaine typique (pour la plupart des Anglais, ces mots sont complètement homophones), et peut-être aussi, mais ça se discute plus, entre law et lore ; je peux aussi mentionner la voix craquée (qui peut avoir une fonction phonémique en danois). Mais concentrons-nous sur les trois dimensions d'ouverture, avancement et arrondissement.

Des points de référence

Il ne suffit pas d'avoir identifié des dimensions, encore faut-il se repérer dessus, c'est-à-dire définir des points de référence dans cet espace. Ce seront les voyelles cardinales, qui ne sont pas les sons d'une langue donnée, mais des voyelles standardisées par rapport auxquelles on pourra les comparer. Comme l'espace des voyelles est continu, ces points de référence sont assez arbitraires. Mais pas complètement arbitraire : il est, par exemple, plus raisonnable de distinguer quatre niveaux d'ouverture, parce que cela correspond à ce qu'on arrive à reconnaître sans trop d'effort ou d'ambiguïté, et de fait, beaucoup de langues en ont autant ; en revanche, on ne distingue que deux ou trois niveaux d'avancement, et que deux d'arrondissement parce qu'en faire plus devient trop difficile à identifier.

C'est le phonéticien Daniel Jones qui a défini ces voyelles cardinales, en 1917 pour les huit premières, et dans les années 1930 (je ne connais pas la date plus précise) pour les dix suivantes ; il leur a attribué des symboles qui étaient (pour la plupart ?) déjà utilisés dans l'alphabet phonétique pour désigner les sons de certaines langues. En vérité, comme Jones était spécialiste de la phonétique du français (et de l'anglais), et que l'alphabet phonétique a été développé par des phonéticiens français et anglais, un bon nombre de voyelles cardinales collent assez bien avec les voyelles du français. (Les voyelles de l'anglais varient beaucoup plus géographiquement et socialement donc il est plus difficile de comparer.)

La définition des voyelles cardinales est multiple : elle peut se faire par positionnement absolue (par exemple, la cinquième voyelle cardinale, [ɑ], est la voyelle la plus ouverte, la plus postérieure, et la moins arrondie possible), par référence à des voyelles qui existent dans des langues réelles (le [e] est le son du français été), par combinaison de voyelles existantes (le [y] s'obtient en plaçant les lèvres comme pour dire [u] mais la langue comme pour dire [i]), ou enfin par des enregistrements, et notamment un enregistrement de Daniel Jones effectué en 1956 et sur lequel je vais revenir.

Il y a dix-huit voyelles cardinales. Les huit premières, appelées voyelles cardinales primaires, ont été définies en premier, et elles sont les plus faciles ou naturelles à prononcer. Les cinq premières sont non-arrondies et les trois suivantes sont arrondies (à la fois parce qu'il est plus naturel d'arrondir les lèvres pour prononcer une voyelle postérieure et parce que le contraste entre voyelles antérieures non-arrondies et postérieures arrondies est le meilleur possible). Ces huit voyelles cardinales primaires sont :

[i], qui est presque exactement le son du phonème /i/ noté en français par la lettre en question, par exemple dans ici. Il s'agit de la voyelle la plus fermée et la plus antérieure possible, c'est-à-dire en resserrant la langue le plus près possible des dents sans aller jusqu'à produire de frottement.
[e], qui est un peu plus ouverte que [i] tout en étant aussi antérieure que possible : c'est la voyelle /e/ du français, notée par exemple ‘é’ dans été.
[ɛ] (le symbole est plus ou moins un epsilon grec), encore un peu plus ouverte : c'est la voyelle /ɛ/ du français, qu'on trouve par exemple dans fête ou dans fait (mais la distinction entre /e/ et /ɛ/ n'est pas toujours claire en français, par exemple les accents du sud de la France n'ont qu'un seul phonème, prononcé plus ou moins ouvert selon que la syllabe est fermée ou non).
[a] : cette fois, il ne s'agit pas du /a/ du français (lequel est intermédiaire entre celle-ci et la suivante), mais d'une voyelle nettement plus antérieure (i.e., la langue étant à peu près aussi avancée que pour la voyelle précédente). Le /æ/ de l'anglais (la voyelle de trap) a tendance à être plus proche du [a] cardinal, mais il y a une certaine variabilité dans cette voyelle (et le symbole /æ/ nous rappelle que, au moins historiquement, elle tendait à être intermédiaire entre [a] et [ɛ]).
[ɑ] (le symbole est un ‘a’ dans sa variante fermée, c'est-à-dire le glyphe typiquement utilisé dans des polices italiques) : c'est la voyelle la plus ouverte et postérieure possible, donc la plus neutre ou la plus évidente, c'est la voyelle que le médecin demande qu'on prononce (dites âââh !) pour ouvrir grand la gorge. C'est à peu près la voyelle du français pâte pour ceux qui font la différence avec patte autrement que par la longueur ; ou de l'anglais part dans la Received Pronunciation ou pot dans une prononciation américaine assez typique (ces différents mots sont à peu près homophones).
[ɔ] (le symbole est un ‘c’ retourné) : c'est à peu près le son du phonème /ɔ/ du français (c'est-à-dire le ‘o’ de folle, bonne, etc.), ou celui de l'allemand Sonne, ou de l'italien forza, mais il me semble que toutes ces voyelles sont un peu plus avancées(=antérieures) que le [ɔ] cardinal.
[o] : c'est le /o/ du français dans des mots comme faux ou tôt (là aussi, on peut trouver de bons équivalents en allemand — hoch — ou en italien — sono).
[u] : la huitième voyelle cardinale est très proche du son /u/ du français, noté ‘ou’ dans des mots comme fou ou goût. Il s'agit de la voyelle arrondie la plus fermée et la plus postérieure possible.

Ces huit voyelles, donc, sont assez faciles à produire, surtout pour qui parle français, allemand ou italien, mais il existe beaucoup de langues qui ont quelque chose qui y ressemble. Les langues qui n'ont pas la distinction d'ouverture [e]~[ɛ], respectivement [o]~[ɔ], comme le japonais, ont tendance à avoir un son à peu près également situé entre les deux, qu'on note néanmoins souvent /e/, respectivement /o/.

Les huit voyelles cardinales suivantes, dites secondaires, sont plus problématiques. Elles s'obtiennent en inversant la caractéristique arrondie : autrement dit, alors que les cinq premières voyelles cardinales primaires étaient non-arrondies et les trois suivantes arrondies, les voyelles cardinales secondaires font le contraire. La difficulté est double : (A) il n'est pas du tout facile de changer la position des lèvres sans bouger du tout la langue, et surtout sans changer d'ouverture, et (B) ces voyelles ne sont pas très distinctes, parce qu'une voyelle antérieure arrondie a tendance à ressembler acoustiquement à une voyelle postérieure non-arrondie, et c'est précisément ce que cette seconde série nous fournit.

[y] : c'est à peu près le /y/ qu'on trouve en français (et qui se note avec la lettre ‘u’) dans fut, lu, bu, mais la voyelle cardinale [y] est plus antérieure (autant que possible) et plus arrondie ; le /y/ du suédois (fyra) en est sans doute plus proche (cf. ce que je disais plus haut sur l'arrondissement endolabial et exolabial). Disons que le [y] cardinal se forme en plaçant les lèvres comme pour la huitième voyelle cardinale, [u], mais la langue comme pour la première, [i].
[ø] (le symbole est le ‘o’ barré qu'on trouve en norvégien ou en danois) : c'est à peu près le /ø/ qu'on trouve en français (« ‘eu’ fermé ») dans feu, peu, deux, mais, de nouveau, la voyelle cardinale [ø] est plus antérieure et plus arrondie ; le /ø/ du suédois (över) en est sans doute plus proche. Disons que le [ø] cardinal se forme en plaçant les lèvres comme pour la septième voyelle cardinale, [o], mais la langue comme pour la deuxième, [e].
[œ] (le symbole est une ligature ‘oe’), encore un peu plus ouverte que la précédente : c'est à peu près le /œ/ qu'on trouve en français (« ‘eu’ ouvert ») dans peuple, jeune, sœur, mais comme les précédents, le [œ] cardinal est plus antérieur et plus arrondi : il se forme en plaçant les lèvres comme pour la sixième voyelle cardinale, [ɔ], mais la langue comme pour la troisième, [ɛ].
[ɶ] (le symbole est une ligature ‘oe’ mais en petites capitales) : cette voyelle cardinale est particulièrement peu naturelle, et très peu de langues semblent utiliser un son qui s'en approche (aucune, notamment, ne semble opposer un son proche de [œ] d'un son proche de [ɶ]). Ce qui s'en approche le plus est la prononciation québecoise du « ‘eu’ ouvert » précédant un ‘r’ (par exemple dans bonheur), mais cette dernière a tendance à être une diphtongue alors que les voyelles cardinales sont, évidemment, des monophtongues. On doit prononcer le [ɶ] cardinal en plaçant les lèvres comme pour [ɔ], mais la langue comme pour [a], ou, si on veut, en ouvrant le [œ] au maximum tout en restant antérieur ; l'ennui, c'est que ces descriptions ne donnent pas exactement le même résultat (pour moi), et pas non plus exactement le même son que ce que j'entends dans l'enregistrement de Jones : donc je ne sais pas exactement comment cette voyelle doit se prononcer.
[ɒ] (le symbole est le même que pour la cinquième voyelle cardinale, [ɑ], mais retourné) : de beaucoup de points de vue, cette voyelle est intermédiaire entre la cinquième ([ɑ]) et la sixième ([ɔ]), et plus exactement il s'agit de placer les lèvres comme pour [ɔ] mais la langue comme pour dire [ɑ] (c'est-à-dire le plus en retrait possible), bref, il s'agit d'ouvrir le [ɔ] encore plus. Une réalisation approchante est une prononciation québecoise du ‘a’ précédant un ‘r’ (par exemple dans tard), même s'il y a beaucoup de variabilité dans ce son (qui a tendance à être une diphtongue). Remarquons que le son noté /ɒ/ dans la Received Pronunciation anglaise (la voyelle de lot) est, de nos jours, beaucoup plus proche de la sixième voyelle cardinale ([ɔ]) que de celle-ci (et de même, le son noté /ɔ/, celui de thought, est plus proche de la septième, [o]) : donc l'anglais n'est pas une bonne référence pour réaliser cette voyelle.
[ʌ] (le symbole est un ‘v’ retourné) : cette fois, il s'agit, au contraire, de placer les lèvres comme pour [ɑ] mais la langue comme pour [ɔ], ce qui n'est pas si facile qu'il paraît. De nouveau, la transcription de la Received Pronunciation anglaise est un mauvais guide, parce que le son qui y est noté par le même symbole, /ʌ/ (la voyelle de cup), est de nos jours beaucoup plus avancé et un peu arrondi (c'est-à-dire qu'il s'est rapproché du /œ/ français, que les Français croient souvent reconnaître dans cette voyelle ; ou pour dire les choses autrement, le /ʌ/ anglais et le /œ/ français se sont rapprochés par les deux bouts, alors que les voyelles cardinales [ʌ] et [œ] sont censées différer beaucoup plus nettement : on peut les obtenir en exagérant au maximum la différence).
[ɤ] (le symbole est un zigouigoui unique appelé cornes de bélier et qui ressemble vaguement au symbole astrologique ♈ de la constellation du bélier) : cette voyelle s'obtient en plaçant les lèvres comme pour [ɑ] ou [e] mais la langue comme pour [o], et, de nouveau, c'est plus facile à dire qu'à faire. De même que le [ʌ] peut ressembler superficiellement à [œ], le [ɤ] peut ressembler superficiellement à [ø] suivant la règle générale qu'une voyelle antérieure arrondie et une postérieure non-arrondie se ressemblent acoustiquement. (Je note par ailleurs que j'ai personnellement tendance à prononcer l'onomatopée oh-oh, exprimant une surprise contrariée, comme approximativement [ʔɤ́ʔɤ̀], même si je ne parie pas que le degré d'ouverture soit exactement celui de [ɤ] et pas [ʌ].)
[ɯ] (le symbole est un ‘m’ retourné, qui est censé coïncider assez bien avec un ‘u’ ayant une patte de plus) : cette voyelle est plus facile, à mon avis, à réaliser que les précédentes parce qu'elle est plus extrême (donc on a moins à faire attention à mettre la langue précisément au bon endroit) : on place les lèvres comme pour [ɑ] ou [i] mais la langue comme pour [u], c'est-à-dire que c'est la voyelle non-arrondie la plus fermée et la plus postérieure possible. Je ne sais pas pourquoi, cette voyelle est assez fortement associée à l'imitation du cri d'un homme préhistorique (demandez à un enfant d'imiter ce cri, et je pense qu'il produira quelque chose d'assez proche de [ʔɯ]).

Il reste enfin deux voyelles cardinales (aussi classées comme secondaires) qui sont fermées mais centrales, c'est-à-dire intermédiaires entre antérieure et postérieure (comme la distinction entre voyelles antérieures et postérieures est d'autant plus forte que celles-ci sont fermées, c'est uniquement pour ce niveau de fermeture qu'on place ce point intermédiaire), l'une étant arrondie et l'autre non.

[ɨ] (le symbole est un ‘i’ barré) : il s'agit d'une voyelle intermédiaire entre [i] et [ɯ], la langue étant à mi-chemin entre les deux. Le son de cette voyelle ressemble un peu à [y], et j'ai tendance à dire qu'on l'obtient en reculant la langue à partir de [i], sans bouger les lèvres, jusqu'au moment où le son ressemble le plus possible à [y].
[ʉ] (le symbole est un ‘u’ barré) : il s'agit d'une voyelle intermédiaire entre [y] et [u] (la langue étant à mi-chemin entre les deux), qu'on peut obtenir en plaçant les lèvres comme pour [u] mais la langue comme pour [ɨ].

Des enregistrements de ces voyelles

L'enregistrement principal qui sert à repérer les voyelles cardinales et à les apprendre a été fait par Daniel Jones en 1956 : il est donc d'assez mauvaise qualité. On peut le trouver sur cette page ou de façon plus pratique sur cette version sur YouTube qui montre les symboles et numéros en même temps. Un autre enregistrement, évidemment moins bruité, a été mis vers 2005 sur Wikipédia par un wikipédiste, qui ne s'en est pas trop mal tiré, même si certaines voyelles me semblent un peu imprécises, mais qui a la voix très fortement craquée sur tous ces enregistrements.

J'ai créé une page (qui ne marchera probablement que sur des navigateurs récents) pour rassembler ces enregistrements de façon commode, et aussi permettre de jouer au jeu de reconnaître la voyelle (cliquer sur play new pour jouer une voyelle au hasard, replay pour la réécouter, et mettre la souris au-dessus de answer pour identifier ce qu'on vient d'entendre). Je serais curieux de savoir comment les personnes sans formation particulière en phonétique s'en sortent à ce petit jeu.

Lorsque j'arriverai à trouver la combinaison du temps pour le faire et de l'environnement tranquille pour prononcer o — o — o — o à répétition sans que personne me regarde bizarrement, j'essaierai de créer mon propre enregistrement des voyelles cardinales et de l'ajouter à la page en question. [Ajout (2013-05-07T23:20+02:00) : c'est fait.]

[#] Pensez au cas des mots anglais button ou bottle, dont la seconde syllabe a pour noyau une consonne — le ‘n’ dans un cas et le ‘l’ dans l'autre — qui se comporte donc essentiellement comme une voyelle. À l'inverse, pensez au cas du mot français nuit, dont le ‘u’ joue le rôle d'une consonne /ɥ/ quand on prononce le mot en une seule syllabe, alors que c'est indiscutablement une voyelle si on fait la diérèse, sans que le son lui-même soit vraiment différent. Pensez enfin au mot anglais seer dont le ‘r’ dénote une consonne /ɹ/ dans une prononciation américaine typique, et une voyelle /ə/ dans une prononciation anglaise typique (pour laquelle le mot rime avec idea où la même voyelle est désignée par un ‘a’) ; et de même au mot allemand Lärm où le ‘r’ peut désigner, chez le même locuteur, soit une consonne /ʁ/ soit une voyelle /ɐ/, ou tout un continuum entre les deux.