David Madore's WebLog: Statistique nippographique

Index of all entries / Index de toutes les entréesXML (RSS 1.0) • Recent comments / Commentaires récents

Entry #1232 [older|newer] / Entrée #1232 [précédente|suivante]:

(mardi)

Statistique nippographique

Qu'est-ce que c'est que la liste suivante ? (Précisons que ça se lit de gauche à droite et de haut en bas…)

の に る ン と は た い し を で て が な 年 ス れ ル 日 ト イ リ か あ ア す ら ラ う っ り こ も さ ク 月 ッ ま 大 タ ド 本 シ く ジ よ ロ レ き 学 フ ん カ 国 テ 道 一 人 ム マ 中 市 駅 つ ィ め バ プ そ コ お け ウ オ 線 用 行 者 グ 県 メ え 部 ど デ ビ 地 サ や ニ 東 キ わ 名 チ ナ 合 上 作 出 山 田 エ ャ 時 生 場 ブ ュ 高 だ 会 子 ち 事 代 町 み 画 関 ダ 車 後 パ ズ 川 第 ェ 分 ミ 間 新 長 鉄 動 発 定 的 業 目 戦 立 号 せ 方 内 前 社 成 島 野 物 通 自 小 ハ 同 手 ョ 所 ノ 京 校 北 家 連 主 ガ 下 ば 現 モ 法 三 語 体 利 開 ネ セ 村 ツ 在 文 和 放 化 じ 送 機 海 世 西 入 外 記 ペ 都 番 原 多 神 理 対 ベ ポ ボ 電 全 数 特 ソ 見 像 以 当 式 へ 教 設 除 公 平 組 ァ 性 水 区 明 ピ 力 ワ 最 度 等 金 ろ ほ 二 政 位 び 表 ケ 路 木 ゴ 治 口 南 ホ 回 元 言 実 ず 形 書 要 ギ 削 面 郡 女 ヴ 正 使 品 期 王 初 気 経 選 科 系 項 民 天 岡 軍 点 制 空 音 ゲ ザ 置 有 加 能 交 曲 近 知 議 広 州 ひ 重 別 取 来 界 楽 信 松 運 ヤ 演 井 む 変 意 身 次 版 ふ 美 優 宮 産 保 阪 石 不 勝 結 義 共 史 古 台 府 持 員 武 覧 士 ょ 球 歴 頼 朝 他 話 集 編 ヒ 活 ォ ゆ 十 称 型 工 際 戸 論 福 城 受 造 条 続 参 指 げ 歌 太 土 務 相 呼 売 無 藤 登 依 付 局 改 団 馬 権 院 説 安 光 流 由 崎 種 存 べ 屋 列 園 総 橋 急 統 映 解 心 術 郎 始 営 昭 基 域 建 少 移 門 構 ぶ 転 紀 英 館 ユ 役 直 製 字 類 題 属 計 賞 向 終 愛 進 星 真 速 津 両 ヨ 報 谷 男 江 影 千 支 常 ご 決 様 問 技 寺 ね 旧 考 備 格 得 葉 四 伝 可 引 佐 思 任 八 止 育 約 強 港 皇 器 状 店 浜 白 吉 良 兵 氏 河 投 情 官 死 研 隊 伊 先 命 料 量 五 及 族 起 調 規 各 万 反 周 判 色 乗 容 装 過 客 管 再 久 ヘ 認 味 接 単 ゃ 沢 声 競 録 陸 果 施 青 観 件 究 協 彼 示 必 帝 曜 横 泉 住 米 半 側 ぐ 旅 森 ゼ 撃 鳥 著 党 載 予 応 火 例 頭 円 図 風 ぎ 央 達 領 般 根 着 衆 波 更 監 質 今 商 師 艦 異 九 争 食 収 済 督 独 確 歳 素 親 辺 花 係 試 岩 切 宇 派 賀 洋 配 奈 降 限 富 撮 継 廃 専 司 庫 提 徳 室 豊 航 護 将 復 衛 走 足 尾 離 比 準 修 御 越 級 ゅ 害 座 芸 資 温 銀 打 態 宗 照 込 退 清 秋 母 博 父 程 藩 株 攻 船 夫 細 併 赤 含 企 差 漫 象 倉 去 追 勢 志 令 防 黒 為 未 消 省 殺 百 念 玉 停 ぼ 林 職 積 与 残 源 査 響 境 渡 香 劇 張 築 守 験 完 増 之 首 飛 落 警 陽 導 担 六 春 挙 好 従 帯 非 換 若 里 供 児 闘 助 処 ヶ 読 感 概 雄 略 然 典 展 坂 臣 聞 想 医 満 率 視 浦 環 ヌ 鹿 魔 価 違 章 創 末 悪 何 検 遺 庁 暦 普 永 夜 革 竹 介 蔵 評 詞 聖 帰 複 個 了 ざ 巻 池 づ 便 割 毎 瀬 舞 諸 ゥ 病 極 断 堂 写 察 ぞ 街 証 奏 羽 群 裁 秀 深 述 告 仕 隣

Réponse : ce sont les 800 caractères japonais (kanas ou kanjis) les plus fréquents, et par ordre décroissant de fréquence, sur la Wikipédia japonaise (y compris Wikibooks, Wikinews, Wikiquote et Wikisource, en fait, mais tout ça ne pèse pas bien lourd face au bloc de la Wikipédia).

Bon, comme je ne parle pas japonais, je ne peux pas faire de commentaire spécialement intelligent là-dessus. (Pourquoi avoir fait les statistiques sur le japonais, alors, me demanderez-vous ? D'une part, parce que le résultat est plus joli à regarder, d'autre part, parce que c'est plus facile de délimiter les caractères en japonais que les mots en français ou en anglais.) Enfin, même sans connaître grand-chose au japonais, on voit quand même que c'est bien tiré d'une encyclopédie, parce que le caractère ‘年’ (qui signifie année) est quand même furieusement surreprésenté (c'est le premier caractère non-phonétique qui apparaît, suivi de jour, puis mois). Il serait intéressant de comparer cette liste à celle des 1945 kanjis réputés d'usage courant.

Pour ce qui est des premiers signes, je peux donner les comptes précis dans le corpus (pour qu'on se fasse une idée de la décroissance de la fréquence, sachant que par ailleurs le 800e caractère ci-dessus est environ 200 fois plus rare que le premier) :

6116775
3478483
3306430
2767617
2710066
2681245
2642990
2634559
2574059
2342774
2255772
2188925

Visiblement, une part significative de la langue japonaise est constituée de ‘の’ (c'est un signe qui se prononce no et qui sert notamment à former une particule grammaticale marquant la relation) ; d'ailleurs, pour celui qui ignore tout du japonais, c'est le signe le plus évident à chercher et le plus facilement reconnaissable pour détecter qu'un texte est effectivement en japonais.

↑Entry #1232 [older|newer] / ↑Entrée #1232 [précédente|suivante]

Recent entries / Entrées récentesIndex of all entries / Index de toutes les entrées