【漢語音韻學筆記】通押韻次的數學期望與韻離合指數

在介紹韻離合指數之前,我們先考慮一個最基礎的組合學問題:

今有黑球 m 個,均可分辨(即可以編號為「黑球 0 號」至「黑球 (m-1) 號」,白球 n 個。我們要從中取出 l 組「球對」,每個「球對」中包含兩個小球。

「球對」內部兩個球之間的順序、「球對」之間的順序都不重要,比如以下三行都描述了同一種情況:

(「黑球 0 號」「黑球 1 號」)(「黑球 2 號」「白球0號」)

(「黑球 1 號」「黑球 0 號」)(「黑球 2 號」「白球0號」)

(「黑球 2 號」「白球0號」)(「黑球 0 號」「黑球 1 號」)

但以下兩行描述了不同情況:

(「黑球 0 號」「黑球 1 號」)(「黑球 2 號」「白球0號」)

(「黑球 2 號」「黑球 1 號」)(「黑球 0 號」「白球0號」)

我們想分析一下一共有多少種情況,使得這 l 組「球對」中恰好有 k 組「一黑一白」,s組「兩黑」(顯然「兩白」的對數是 (l-k-s))。

由於「球對」之間的順序不重要,我們可以先後取出所有「一黑一白」「兩黑」與「兩白」。容易驗證這既不會算重也不會算漏。

第〇步,取出 k 組「一黑一白」:

先從 m 個黑球中取出 k 個黑球,取法有這麼多種(這是一個簡單的組合學問題):

frac{m!}{k!(m-k)!}

再從 n 個白球中取出 k 個白球,取法有這麼多種:

frac{n!}{k!(n-k)!}

把這 k 個黑球與 k 個白球相互配對,配法有這麼多種:

k!

乘起來就是從 m 個黑球、n 個白球中取出k組「一黑一白」球對的取法數目:

frac{m!n!}{k!(m-k)!(n-k)!}

第一步,取出 s 組「兩黑」。現在還剩 (m-k) 個黑球。

假如這 s 組是可分辨的,取法應有這麼多種(這依舊是一個簡單的組合學問題):

frac{(m-k)!}{(2!)^{s}(m-k-2s)!}

然而實際上這 s 組不可分辨,所以還要除掉一個階乘:

frac{(m-k)!}{2^{s}·s!(m-k-2s)!}

第二步,取出 (l-k-s) 組「兩白」。同理,取法有這麼多種:

frac{(n-k)!}{2^{l-k-s}(l-k-s)!(n-2l+k+2s)!}

第三步,全部乘起來就是我們想要的結果:

g(k,s)=m!n!·frac{1}{2^{l-k}·k!s!(l-k-s)!(m-k-2s)!(n-2l+k+2s)!}

另一方面,從 (m+n) 個可分辨的球中取出 l 組「球對」的方法總計有這麼多種;

frac{(m+n)!}{2^{l}·l!(m+n-2l)!}

而這理應等於「我們想要的結果」對所有可能的 k 與 s 求和。容易驗證所謂「所有可能的 k 與 s」就是指那些保證階乘的宗量非負的所有 k 與 s。因此:

frac{(m+n)!}{2^{l}·l!(m+n-2l)!}=m!n!sum_{k,s}frac{1}{2^{l-k}·k!s!(l-k-s)!(m-k-2s)!(n-2l+k+2s)!}

或者更順手一些:

frac{(m+n)!}{m!n!l!(m+n-2l)!}=sum_{k,s}frac{2^{k}}{k!s!(l-k-s)!(m-k-2s)!(n-2l+k+2s)!}

這是一個恆等式。


現在進入正題。對於韻譜中的兩類音節 A 與 B,我們想給出一個定量的「指數」來描述 A 與 B 的通押程度。

為了行文方便,我們設除了 A 與 B 以外的所有音節都算 C 類,並僅考慮韻文中相鄰韻腳的押韻關係,也就是「韻次」。更進一步地,為了簡化計算,我們假設所有韻次之間統計獨立。

設 AA、AB、BA、BB 這四種韻次的出現概率之和為 p,AC、CA、BC、CB 這四種韻次的出現概率之和為 q。顯然 CC 這種韻次的出現概率為 (1-p-q)。

在 A 與 B 中,設 A 出現的概率(與「A 或 B」出現的概率之比)為 a,B 出現的概率為 b。顯然二者之和為 1。

假如 A 與 B 在押韻方面沒有任何區別(通俗但不嚴謹地說就是自由通押),應有:

● AA 出現的概率為 a2p;

● AB、BA 出現的概率各為 abp;

● BB 出現的概率為 b2p;

● AC、CA 出現的概率各為 aq;

● BC、CB 出現的概率各為 bq;

● CC 出現的概率為 (1-p-q)。

由於之前我們已經假設所有韻次之間統計獨立,我們可以很快計算出某個「韻次序列」出現的概率。例如,韻次序列序列「AA AB CA BB AA CC」出現的概率為:

a^{2}p·abp·aq·b^{2}p·a^{2}p·(1-p-q)=a^{6}b^{3}p^{4}q(1-p-q)

更普遍的表達式為:

a^{M}b^{N}p^{L}q^{M+N-2L}(1-p-q)^{T-M-N+L}

式中 T 為該韻次序列中韻次的總數,M 為 A 出現的次數,N 為 B 出現的次數,L 為 AA、AB、BA、BB 這四種韻次的出現次數之和。

由此可見,所有 T、M、N、L 分別相同的韻次序列等概率出現。

下面我們計算這些限定了 T、M、N、L 的韻次序列集合之中有多少這樣的韻次序列:它們恰好包含了 K 組 AB 或 BA,同時也恰好包含了 S 組 AA。容易計算,此時必有 (L-K-S) 組 BB,(M-K-2S) 組 AC 或 CA,(N-2L+K+2S) 組 BC 或 CB,與 (T-M-N+L) 組 CC。

第〇步,我們從這 T 個位置中選出 K 個填上 AB 或 BA。取法有這麼多種(這是一個簡單的組合學問題):

frac{T!}{K!(T-K)!}

每個位置都可以填上 AB 或 BA,因此填法有這麼多種:

2^{K}

因此總計有這麼多種情況:

frac{2^{K}}{K!(T-K)!}

第一步,我們從剩下的 (T-K) 個位置中選出 S 個填上 AA,有這麼多種情況:

frac{(T-K)!}{S!(T-K-S)!}

第二步,我們從剩下的 (T-K-S) 個位置中選出 (L-K-S) 個填上 BB,有這麼多種情況:

frac{(T-K-S)!}{(L-K-S)!(T-L)!}

第三步,我們從剩下的 (T-L) 個位置中選出 (M-K-2S) 個填上 AC 或 CA,有這麼多種情況:

frac{2^{M-K-2S}(T-L)!}{(M-K-2S)!(T-M-L+K+2S)!}

第四步,我們從剩下的 (T-M-L+K+2S) 個位置中選出 (N-2L+K+2S) 個填上 BC 或 CB,有這麼多種情況:

frac{2^{N-2L+K+2S}(T-M-L+K+2S)!}{(N-2L+K+2S)!(T-M-N+L)!}

剩下的位置都填上 CC。

把上面五個表達式都乘起來就是我們想要的結果:

G(K,S)=frac{2^{M+N-2L}·T!}{(T-M-N+L)!}·frac{2^{K}}{K!S!(L-K-S)!(M-K-2S)!(N-2L+K+2S)!}

利用類比,或者利用之前的那條恆等式,我們可以計算出總情況數:

sum_{K,S}G(K,S)=frac{2^{M+N-2L}·T!}{(T-M-N+L)!}·frac{(M+N)!}{M!N!L!(M+N-2L)!}

為了得出理論上的期望,我們還需要計算 K 的一階原點矩。一階原點矩的分母就是上面那個表達式,下面計算分子即可:

sum_{K,S}K·G(K,S)=frac{2^{M+N-2L}·T!}{(T-M-N+L)!}·E_{1}

式中:

E_{1}=sum_{K,S}frac{K·2^{K}}{K!S!(L-K-S)!(M-K-2S)!(N-2L+K+2S)!}

注意到 K 可能為 0,但那些項顯然都是 0,對求和沒有貢獻。我們可以從 K=1 開始求和,上下約分可得:

E_{1}=sum_{K,S}frac{K·2^{K}}{(K-1)!S!(L-K-S)!(M-K-2S)!(N-2L+K+2S)!}

令 m=M-1,n=N-1,l=L-1,k=K-1,s=S,可得(K=1就是k=0):

E_{1}=sum_{k,s}frac{2^{k+1}}{k!s!(l-k-s)!(m-k-2s)!(n-2l+k+2s)!}

把分子上的一個 2 拿到求和號外面去,利用之前的那條恆等式可得:

E_{1}=2·frac{(m+n)!}{m!n!l!(m+n-2l)!}=frac{2(M+N-2)!}{(M-1)!(N-1)!(L-1)!(M+N-2L)!}

也就是說:

sum_{K,S}K·G(K,S)=frac{2^{M+N-2L}·T!}{(T-M-N+L)!}·frac{2(M+N-2)!}{(M-1)!(N-1)!(L-1)!(M+N-2L)!}

因此一階原點矩,也就是 K 的期望為:

{
m E}(K)=frac{sum_{K,S}K·G(K,S)}{sum_{K,S}G(K,S)}=frac{frac{2(M+N-2)!}{(M-1)!(N-1)!(L-1)!(M+N-2L)!}}{frac{(M+N)!}{M!N!L!(M+N-2L)!}}=frac{2MNL}{(M+N)(M+N-1)}

類似地,我們可以計算 K 的二階中心矩(也就是方差),為此首先計算:

sum_{K,S}K(K-1)·G(K,S)=frac{2^{M+N-2L}·T!}{(T-M-N+L)!}·E_{2}

式中:

E_{1}=frac{K(K-1)·2^{K}}{K!S!(L-K-S)!(M-K-2S)!(N-2L+K+2S)!}

注意到 K 可能為 0 或 1,但那些項顯然都是 0,對求和沒有貢獻。由類似操作可得:

sum_{K,S}K(K-1)·G(K,S)=frac{2^{M+N-2L}·T!}{(T-M-N+L)!}·frac{2^{2}(M+N-4)!}{(M-2)!(N-2)!(L-2)!(M+N-2L)!}

因此:

{
m E}[K(K-1)]=frac{sum_{K(K-1),S}K·G(K,S)}{sum_{K,S}G(K,S)}={
m E}(K)·frac{2(M-1)(N-1)(L-1)}{(M+N-2)(M+N-3)}

或者更順眼一些:

frac{{
m E}[K(K-1)]}{{
m E}(K)}=frac{2(M-1)(N-1)(L-1)}{(M+N-2)(M+N-3)}

現在我們就可以計算 K 的二階中心矩了:

{
m D}(K)={
m E}(K^{2})-[{
m E}(K)]^{2}={
m E}[K(K-1)]+{
m E}(K)-[{
m E}(K)]^{2}

以及相對標準差:

frac{{
m sigma}(K)}{{
m E}(K)}=sqrt{frac{{
m D}(K)}{[{
m E}(K)]^{2}}}=sqrt{frac{1}{{
m E}(K)}(frac{{
m E}[K(K-1)]}{{
m E}(K)}+1)-1}

具體展開式比較複雜,此處從略。


最後給出「韻離合指數」的定義。前文表明,假如 A 與 B 在押韻方面沒有任何區別,則 K 的數學期望為 E(K),而 K 根據定義就是 A 與 B 之間通押次數。在實際韻譜中,我們觀察到了 O 組 A 與 B 之間通押,二者之比就是「韻離合指數」I:

I=frac{O}{{
m E}(K)}=frac{M+N)(M+N-1)O}{2MNL}

同時,為了表徵 I 的可靠程度,我們給它又定義了一個「相對標準差」(注意這不是嚴格計算,嚴格計算幾乎總會給出一個無窮大的結果):

frac{{
m sigma}(I)}{I}=frac{{
m sigma}(K)}{{
m E}(K)}=sqrt{frac{M+N)(M+N-1)}{2MNL}(frac{2(M-1)(N-1)(L-1)}{(M+N-2)(M+N-3)}+1)-1}


吐槽 0:我堅決不會修改任何已發布的文章,因為懶得調 bug。我可能會以評論的形式勘誤。

吐槽 1:我沒讀過朱曉農的任何東西,如有雷同純屬故意。

吐槽 2:其實我本來想用正則系綜來分析的,奈何當底數不為 -2, 0, 或 +2 時某個求和我不會算。有誰會算的話可以跟我說一聲。

吐槽 3:Baxter 的卡方分布是什麼鬼,你確定你用對地方了?

吐槽 4:懶得找題圖了。

吐槽 5:其實我也不愛看公式。

吐槽 6:而且級數比積分難多了(誤)。


推薦閱讀:

TAG:音韻學 | 排列組合 |