David Madore's WebLog: L'entropie des prénoms français

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entry #2050 [older|newer] / Entrée #2050 [précédente|suivante]:

(mercredi)

L'entropie des prénoms français

Dans la série David fait joujou avec des statistiques sans intérêt, je vous propose : l'évolution de l'entropie (i.e. l'originalité) des prénoms français avec le temps :

[Graphe d'entropie des prénoms français]

Modification () : J'ai dû refaire le graphique parce que je me suis rendu compte que le fichier que j'avais comportait des doublons (plusieurs indications — heureusement identiques — du nombre de naissances pour une année et un prénom donnés) ; l'allure des nouveaux graphiques est très semblable à l'allure des anciens, mais à peu près 0.25 bits plus bas.

Précisons un peu ce dont il s'agit. La source est le fichier prénoms de l'INSEE, récupéré ici parce que ces andouilles de l'INSEE le vendent à 1200€ (alors qu'on a apparemment le droit de le rediffuser) : ce fichier donne, pour chaque année de naissance entre 1900 et 2009, et chaque prénom (modulo accents, et en séparant selon le sexe de l'individu, i.e., Dominique♂ est considéré comme un prénom différent de Dominique♀), le nombre de naissances en France, pour cette année, de personnes portant ce prénom (à condition qu'il y en ait au moins 3, pour des raisons de confidentialité). La courbe verte donne le log du nombre de naissances dans l'année (ou, plus précisément, le log base 2 moins 10), c'est-à-dire, si l'on veut, la quantité d'information (moins 10 bits) nécessaire pour identifier un individu dont on connaîtrait l'année de naissance. Par exemple, en 2000, le fichier enregistre 654557 naissances au total, donc la quantité d'information pour identifier un individu né cette année-là est de log2(654557)=19.3 bits. J'ai juste soustrait 10 de façon à ramener les deux courbes à peu près dans le même domaine. La courbe rouge, elle, est l'entropie des prénoms pour l'année de naissance donnée, c'est-à-dire la quantité d'information apportée par la donnée du prénom d'un individu (et de son sexe) si on connaît déjà son année de naissance. La différence entre les deux courbes, donc, est la quantité d'information (moins 10 bits) nécessaire pour identifier un individu dont on connaîtrait à la fois l'année de naissance, le sexe et le prénom. Il semble qu'on ait, en 60 ans, gagné quasiment 2.3 bits d'originalité dans le choix des prénoms (i.e., c'est comme si on utilisait effectivement presque 5 fois plus de prénoms).

Ajout () : Voici quelques autres chiffres : sur l'ensemble de la population considérée (i.e., les personnes nées en France à partir de 1900), l'information du prénom(+sexe) apporte 8.99 bits d'information, dont 7.76 en plus si on a l'année de naissance ; autrement dit, l'information mutuelle entre l'année de naissance et le prénom est de 1.23 bits (si on veut, intuitivement, connaître le prénom de quelqu'un apporte 1.23 bits d'information sur son année de naissance ou réciproquement — c'est une mesure du renouvellement des prénoms).

Encore un ajout () : On peut aussi chercher à classer les prénoms selon la quantité d'information qu'ils apportent sur l'année de naissance de la personne qui les porte. J'ai pris les 906 prénoms (i.e., couples prénom+sexe, comme expliqué ci-dessus) ayant été donnés au moins 5000 fois dans la base de données : ceux qui apportent le moins d'information sur l'année de naissance sont : Étienne (0.026 bits), Hélène (0.086), François (0.086), Aline (0.088), James (0.101), Pierre (0.123), Clotilde (0.131), Joachim (0.139), Anne (0.140), Rémy (0.154), Antoine (0.155), Esther (0.161), Louisa (0.163), Lucia (0.167), Édouard (0.173), Gabriel (0.183), Claire (0.184), Marianne (0.197), Yvan (0.199), Paul (0.202), Claudia (0.203), Stanislas (0.207), Moïse (0.210), Charles (0.216) et Ange (0.219). Ceux qui apportent le plus d'information (et c'est surtout là qu'il est important que j'aie coupé à 5000 naissances, sinon on aurait évidemment les prénoms incroyablement rares qui viendraient en tête) : Timéo (3.02 bits), Lana (2.70), Noa (2.67), Aaron (2.60), Louane (2.59), Ethan (2.55), Noah (2.53), Lilou (2.50), Loane (2.49) et Louna (2.45).

Commentaires des sociologues de service ?

↑Entry #2050 [older|newer] / ↑Entrée #2050 [précédente|suivante]

Recent entries / Entrées récentesIndex of all entries / Index de toutes les entrées