古今漢字的同音現象各是怎樣的？

01-01

以前不知道，現在看一下字典里的yi啊，ji啊，看得叫人萬念俱灰。據說古音同音字很少，有沒有具體的數據？

既然要數據，那就來統計一下好了。

我選擇字的條件是：Unicode編碼在U+4E00到U+9FA5之間，且《廣韻》和「漢典網」均收錄。限制Unicode編碼的範圍是因為這正是我的安卓應用「漢字古今中外讀音查詢」的收字範圍，我的電腦上有現成的數據。「漢典網」上收錄了此範圍內絕大部分漢字的普通話讀音，但《廣韻》則只收了其中的繁體字的中古音——這正好排除了簡繁體不同形造成的數據重複。需要注意的是，《廣韻》沒有收錄一些後起的常用字，比如「咱」「們」等，所以在統計普通話讀音的時候，這些字也被排除了。

符合上述條件的漢字一共有13,522個。

考慮多音字，普通話這些字一共有16,197個讀音，分布於1,297個不同的音節；

中古音中這些字一共有18,344個讀音，分布於3,625個不同的音節。

中古音的音節數接近普通話的3倍，由此已經可以看出來普通話漢字同音的現象與中古音相比嚴重得多。

把普通話和中古音的累積分布圖畫出來，是這個樣子的：

橫軸是音節數的百分比，而縱軸是漢字（準確地說是字音）的百分比；藍線代表普通話，紅線代表中古音。這張圖應該這麼讀（以用黑框標出的點為例）：普通話中有54%的字音包含在字數最多的20%的音節中。曲線越彎，代表分布越不均勻。可以看出，普通話的分布比中古音更不均勻，這又加劇了普通話漢字同音的現象。普通話中字數最多的五個音節是：yì（151字）、yù（112字）、xī（110字）、bì（107字）、lì（97字）；

中古音中字數最多的五個音節是：leng（靈，57字）、de（提，39字）、jyo（俞，34字）、leu（僚，34字）、jeu（遙，33字），同音字數遠小於普通話。若統計《廣韻》所收的所有字（包括Unicode在前述範圍外的字），則這五個音節的字數分別為87、60、45、42、36，依然小於普通話。

TAG:語言文化 | 漢語 | 讀音 | 漢字讀音 | 音韻 |