Comments on Statistique nippographique

DM (2008-02-13T16:20:17Z)

Sans surprise, les caractères les plus communs viennent du syllabaire hiragana (et une du syllabaire katakana). Les hiragana servent à la fois à noter les mots sous forme phonétique, et à former les particules, désinences etc.

の => particule génitive ("de")
に => particule locative ("dans", "dedans")
る => terminaison verbale présent (formes non polies)
ン => n en katakana, je n'ai pas d'explication à part que c'est la seule consonne isolée disponible et que donc elle sera représentée pour tous les mots occidentaux qui contiennent un n alors que les autres consonnes seront dans les syllabes, comptées séparément
と => particule copulative ("et")
は => particule donnant le thème de la phrase, il y en a typiquement une par phrase
た => terminaison verbale passé (formes non polies)
を => particule complément d'object direct (ne sert qu'à cela, non utilisé comme syllabe normale)

Bref, sans trop de surprises.

Ruxor (2006-03-10T23:26:17Z)

Quelle source ? Les statistiques Wikipédia, comme je l'ai dit, je les ai faites moi-même (j'ai récupéré le contenu sur <URL: http://download.wikimedia.org/ > et j'ai appliqué un petit programme de statistique). Pour les autres statistiques évoquées, je n'ai pas mieux que les liens qui ont déjà été signalés.

MB (2006-03-10T20:32:37Z)

D'ailleurs 的 (chinois) ressemble à の (japonais) quand il s'agit d'établir un lien entre deux mots.

Ruxor, pourrais-tu donner le lien vers la source de ces infos ? Merci !

Cyrille (2006-03-09T06:25:52Z)

Pour raffiner encore, on peut compléter je pense les jōyō kanjis avec les jinmeiyō kanji (voir <URL:http://fr.wikipedia.org/wiki/Jinmeiy%C5%8D_kanji>, qui sont des kanjis non jōyō mais autorisés pour les noms propres.

Après analyse, les kanjis les plus couramment présents dans Wikipedia ou dans les journaux semblent être des jinmeiyō, comme 岡 ("montagne,colline"), prononcé "oka" et qui rentre dans le nom de pas mal de villes japonaises: Fukuoka, Morioka, Shizuoka…

Ruxor (2006-03-08T22:40:12Z)

J'ai mis sur <URL: http://www.madore.org/~david/.misc/kanjifreq.txt > un classement combiné de ~3000 kanjis qui récapitule les différents classements mentionnés ici (celui d'après Wikipédia, celui de Kanjidic, celui de l'analyse du journal Asahi et la liste kyōiku/jōyō).

Ruxor (2006-03-08T20:49:53Z)

Pour le chinois, on trouve, par la même méthode,

的年一中人是有在大之不日以国月和行為上为了國其生用学地法文公子出第家成斯世主作而他者十民三可名部自本分前二代也於西下政所方个理于到王多事南定利物使天德同要得特小及北道或立会高能后由外新等如教科山台時克

Quatschmitsoße (2006-03-08T18:09:42Z)

Tiens, et en Chinois, ça donne quoi? Je parie pour 日, 一, 年, 月…

mt-i (2006-03-08T14:56:39Z)

Nitsugua ->
On peut au moins extraire l'ordre de fréquences des (2501 plus courants des) caractères du kanjidic de Jim Breen, qui correspond à l'analyse des fréquences dans Mainichi Shimbun pendant 4 ans (voir <URL: http://www.csse.monash.edu.au/~jwb/kanjidic_doc.html >).

Le top 10 est alors 日, 一, 国, 会, 人, 年, 大, 十, 二, 本 dans cet ordre. J'ai mis l'intégrale momentanément sur <URL: http://www.eleves.ens.fr/tibouchi/.tmp/kanjifreq >. C'est assez curieux d'ailleurs : on trouve des caractères qu'on penserait courants étonnamment loin dans le classement (par exemple 猫 en 1702…).

f3etoiles (2006-03-08T14:32:54Z)

Sous sa forme la plus simple, la loi de Zipf (pré)dit que la fréquence (d'apparition ans un texte) du n-ème caractère (classé par fréquence d'apparition, évidemment) est c/n. Mandelbrot en a donné une interprétation en termes de théorie de l'information, d'où il ressort que la "vraie" loi doit plutot être en (an+b)^-1, et les mesures empiriques donneraient plutôt du (an+b)^(-1,1). Mais c'est "démontré" pour les mots d'une langue, pas forcément pour les caractères. Il y a aussi des rapports avec la loi de Benford, la loi de Pareto,… (et la théorie du bruit en 1/f), quoique tout cela ne soit pas très bien compris.

Anonymous Coward (2006-03-08T13:47:13Z)

-> f3etoiles

L'article de Wikipedia sur la loi de Zipf ne m'a pas semblé lumineux. En particulier il semble présenter cette loi comme une pure interpolation des fréquences obtenues empiriquement. Et je n'ai pas bien compris en quoi consistait le "nettoyage" opéré par Mandelbrot.

Nitsugua (2006-03-08T12:07:14Z)

La présence de "année" en telle position est en effet étonnante. Traditionnellement, les caractères (je ne parle là que des kanji, ie. les caractères d'origine chinoise) les plus courants en japonais sont "soleil", "un", "deux", "dix", "grand", "homme". Soit 日一二十大人. Si mes souvenirs sont bons, "année" n'apparaît qu'en 9 ou 10° position. Malheureusement, ce classement ne prend pas en compte les hiraganas et katakanas. Que の　/ no apparaisse en première position n'a rien d'étonnant en effet : plus que l'équivalent d'un simple génitif (qui est son sens le plus simple), il sert de nominalisateur, et peut indiquer diverses relations (plus que la simple appartenance) entre deux noms entre lesquels il se place.
Les 1945 caractères d'usage courant officiellement retenus par le ministère de l'éducation comme étant le bagage obligatoire avant l'entrée à l'université sont enseignés "à peu près" par ordre de fréquence. Soit d'abord "soleil" et les chiffres de 1 à 10, puis homme et grand etc… mmmh, il doit bien avoir quelque part sur le net une liste des fréquences de ces 1945 kanjis…

Vicnent (2006-03-08T09:53:34Z)

Un truc qui pourrait être amusant, c'est de savoir à quoi ressemble le "caractère moyen". L'idée serait de faire un fondu complet de tous les caractères, pondéré par la présence de chaque caractère, chaque caractère étant représenté par la liste de ses pixels. vois tu ? On pourrait même jouer sur l'intensité de chaque pixel final…
Je crois que quelqu'un avait fait cela pour le visage de la femme moyenne…

Cyrille (2006-03-08T06:30:27Z)

Intéressant. A comparer avec cette page listant les kanjis les plus courants dans le journal Asahi sur un an (encodage ISO-2022-JP):
http://nozaki-lab.ics.aichi-edu.ac.jp/nozaki/asahi/kanji.html
(méthode décrite dans http://nozaki-lab.ics.aichi-edu.ac.jp/~nozaki/kanji/eigoindex.html)

On constate entre autres une sur-représentation dans Wikipedia des kanjis 年 et 月, sans doute à cause des dates, de 学 ("apprendre", "science"), de 道 ("voie", "chemin") et une sous-représentation des chiffres d'origine chinoise, Wikipedia semblant préférer les chiffres arabes…

f3etoiles (2006-03-08T04:50:59Z)

Astu eu le courage de vérifier la loi de Zipf (<URL: http://fr.wikipedia.org/wiki/Loi_de_Zipf >) sur ces données ?