【漢語音韻學筆記】通押韻次的數學期望與韻離合指數
在介紹韻離合指數之前,我們先考慮一個最基礎的組合學問題:
今有黑球 m 個,均可分辨(即可以編號為「黑球 0 號」至「黑球 (m-1) 號」,白球 n 個。我們要從中取出 l 組「球對」,每個「球對」中包含兩個小球。
「球對」內部兩個球之間的順序、「球對」之間的順序都不重要,比如以下三行都描述了同一種情況:
(「黑球 0 號」「黑球 1 號」)(「黑球 2 號」「白球0號」)
(「黑球 1 號」「黑球 0 號」)(「黑球 2 號」「白球0號」)
(「黑球 2 號」「白球0號」)(「黑球 0 號」「黑球 1 號」)
但以下兩行描述了不同情況:
(「黑球 0 號」「黑球 1 號」)(「黑球 2 號」「白球0號」)
(「黑球 2 號」「黑球 1 號」)(「黑球 0 號」「白球0號」)
我們想分析一下一共有多少種情況,使得這 l 組「球對」中恰好有 k 組「一黑一白」,s組「兩黑」(顯然「兩白」的對數是 (l-k-s))。
由於「球對」之間的順序不重要,我們可以先後取出所有「一黑一白」「兩黑」與「兩白」。容易驗證這既不會算重也不會算漏。
第〇步,取出 k 組「一黑一白」:
先從 m 個黑球中取出 k 個黑球,取法有這麼多種(這是一個簡單的組合學問題):
再從 n 個白球中取出 k 個白球,取法有這麼多種:
把這 k 個黑球與 k 個白球相互配對,配法有這麼多種:
乘起來就是從 m 個黑球、n 個白球中取出k組「一黑一白」球對的取法數目:
第一步,取出 s 組「兩黑」。現在還剩 (m-k) 個黑球。
假如這 s 組是可分辨的,取法應有這麼多種(這依舊是一個簡單的組合學問題):
然而實際上這 s 組不可分辨,所以還要除掉一個階乘:
第二步,取出 (l-k-s) 組「兩白」。同理,取法有這麼多種:
第三步,全部乘起來就是我們想要的結果:
另一方面,從 (m+n) 個可分辨的球中取出 l 組「球對」的方法總計有這麼多種;
而這理應等於「我們想要的結果」對所有可能的 k 與 s 求和。容易驗證所謂「所有可能的 k 與 s」就是指那些保證階乘的宗量非負的所有 k 與 s。因此:
或者更順手一些:
這是一個恆等式。
現在進入正題。對於韻譜中的兩類音節 A 與 B,我們想給出一個定量的「指數」來描述 A 與 B 的通押程度。
為了行文方便,我們設除了 A 與 B 以外的所有音節都算 C 類,並僅考慮韻文中相鄰韻腳的押韻關係,也就是「韻次」。更進一步地,為了簡化計算,我們假設所有韻次之間統計獨立。
設 AA、AB、BA、BB 這四種韻次的出現概率之和為 p,AC、CA、BC、CB 這四種韻次的出現概率之和為 q。顯然 CC 這種韻次的出現概率為 (1-p-q)。
在 A 與 B 中,設 A 出現的概率(與「A 或 B」出現的概率之比)為 a,B 出現的概率為 b。顯然二者之和為 1。
假如 A 與 B 在押韻方面沒有任何區別(通俗但不嚴謹地說就是自由通押),應有:
● AA 出現的概率為 a2p;
● AB、BA 出現的概率各為 abp;
● BB 出現的概率為 b2p;
● AC、CA 出現的概率各為 aq;
● BC、CB 出現的概率各為 bq;
● CC 出現的概率為 (1-p-q)。
由於之前我們已經假設所有韻次之間統計獨立,我們可以很快計算出某個「韻次序列」出現的概率。例如,韻次序列序列「AA AB CA BB AA CC」出現的概率為:
更普遍的表達式為:
式中 T 為該韻次序列中韻次的總數,M 為 A 出現的次數,N 為 B 出現的次數,L 為 AA、AB、BA、BB 這四種韻次的出現次數之和。
由此可見,所有 T、M、N、L 分別相同的韻次序列等概率出現。
下面我們計算這些限定了 T、M、N、L 的韻次序列集合之中有多少這樣的韻次序列:它們恰好包含了 K 組 AB 或 BA,同時也恰好包含了 S 組 AA。容易計算,此時必有 (L-K-S) 組 BB,(M-K-2S) 組 AC 或 CA,(N-2L+K+2S) 組 BC 或 CB,與 (T-M-N+L) 組 CC。
第〇步,我們從這 T 個位置中選出 K 個填上 AB 或 BA。取法有這麼多種(這是一個簡單的組合學問題):
每個位置都可以填上 AB 或 BA,因此填法有這麼多種:
因此總計有這麼多種情況:
第一步,我們從剩下的 (T-K) 個位置中選出 S 個填上 AA,有這麼多種情況:
第二步,我們從剩下的 (T-K-S) 個位置中選出 (L-K-S) 個填上 BB,有這麼多種情況:
第三步,我們從剩下的 (T-L) 個位置中選出 (M-K-2S) 個填上 AC 或 CA,有這麼多種情況:
第四步,我們從剩下的 (T-M-L+K+2S) 個位置中選出 (N-2L+K+2S) 個填上 BC 或 CB,有這麼多種情況:
剩下的位置都填上 CC。
把上面五個表達式都乘起來就是我們想要的結果:
利用類比,或者利用之前的那條恆等式,我們可以計算出總情況數:
為了得出理論上的期望,我們還需要計算 K 的一階原點矩。一階原點矩的分母就是上面那個表達式,下面計算分子即可:
式中:
注意到 K 可能為 0,但那些項顯然都是 0,對求和沒有貢獻。我們可以從 K=1 開始求和,上下約分可得:
令 m=M-1,n=N-1,l=L-1,k=K-1,s=S,可得(K=1就是k=0):
把分子上的一個 2 拿到求和號外面去,利用之前的那條恆等式可得:
也就是說:
因此一階原點矩,也就是 K 的期望為:
類似地,我們可以計算 K 的二階中心矩(也就是方差),為此首先計算:
式中:
注意到 K 可能為 0 或 1,但那些項顯然都是 0,對求和沒有貢獻。由類似操作可得:
因此:
或者更順眼一些:
現在我們就可以計算 K 的二階中心矩了:
以及相對標準差:
具體展開式比較複雜,此處從略。
最後給出「韻離合指數」的定義。前文表明,假如 A 與 B 在押韻方面沒有任何區別,則 K 的數學期望為 E(K),而 K 根據定義就是 A 與 B 之間通押次數。在實際韻譜中,我們觀察到了 O 組 A 與 B 之間通押,二者之比就是「韻離合指數」I:
同時,為了表徵 I 的可靠程度,我們給它又定義了一個「相對標準差」(注意這不是嚴格計算,嚴格計算幾乎總會給出一個無窮大的結果):
吐槽 0:我堅決不會修改任何已發布的文章,因為懶得調 bug。我可能會以評論的形式勘誤。
吐槽 1:我沒讀過朱曉農的任何東西,如有雷同純屬故意。
吐槽 2:其實我本來想用正則系綜來分析的,奈何當底數不為 -2, 0, 或 +2 時某個求和我不會算。有誰會算的話可以跟我說一聲。
吐槽 3:Baxter 的卡方分布是什麼鬼,你確定你用對地方了?
吐槽 4:懶得找題圖了。
吐槽 5:其實我也不愛看公式。
吐槽 6:而且級數比積分難多了(誤)。
推薦閱讀: