姓氏越稀有,越有可能成為精英姓氏?

在知乎上看到這麼個答案zhihu.com/question/3209,大概是說,有人分析了清代江南全部兩萬多名舉人名單以及從清代滅亡到2012年當地的名牌大學生名單,通過分析他們的姓氏佔比來找出最精英的姓氏。如果這個姓氏中的舉人、名牌大學生所佔比例高於總人群平均值的五倍,則認為這個姓氏是精英姓氏。最終找到的精英姓氏是諸,竺,茅,濮,裘,巢,惲,端木,鈕,忻,薩,笪,宓。這些姓氏都相對比較少見(注意,這已經是精英姓氏了,所以更容易出現在人們的視野里),有些甚至一般人都不認識。然後這個答案得到結論:姓氏越稀有,越有可能成為精英姓氏。

這個結論其實有概率論上的解釋。

一個小家族內部,由於耕讀傳家的緣故,成員能否成功確實很不獨立。一個讀書人的兒子從小就能接觸到各種書籍,成為精英的概率遠高於一個文盲農民的兒子。但從整個江南考慮,同姓氏的各個小家族之間就相對獨立。於是,一個姓氏可以抽象成為一堆獨立的小家庭的總和。每個小家庭的精英程度是一個隨機變數,都服從同一個分布。

一個有n個小家庭的姓氏的平均精英程度是

frac{1}{n}(X_1+cdots X_n) , 期望是 mathbb{E}X , 方差是 frac{1}{n}text{Var}X . 所以姓氏的精英程度,其期望和姓氏人口大小無關,但人口越多,方差越小。

姓氏的平均精英程度,基本是一個正態分布(中心極限定理),中心位置(期望)都一樣,但人口越多,分布越集中,人口越少,分布越分散,如圖:

所以姓氏人口越少,越有可能出現特別精英或者特別廢柴的極端情況。特別大的姓氏,其表現基本和整體人口是一樣的。比如王李張三個姓氏占人口總數的 20%以上,那麼他們不可能都是精英姓氏,否則這三個姓的精英人口佔總精英人數的100%以上。


成為精英姓氏的概率與姓氏人口數的具體關係,可以用大偏差技術來處理。我寫過一個相關的note,Mather King:大偏差技術是什麼?

簡言之,大偏差說的是,n個iid變數的均值,大於某個較大的值(比如此處的五倍精英比例)的概率,亦即『大偏差』出現的概率,會隨著n增長以指數速度下降。

假設一個有1000人口的姓氏成為精英姓氏的概率是1%,那麼一個有2000人口的姓氏成為精英姓氏的概率大概量級是1%*1%=0.01%。一個有10000人口的姓氏成為精英姓氏的概率大概量級是0.01^10=10^{-20}, 小得可以忽略。

這就非常好地解釋了為什麼姓氏越稀有,越有可能成為精英姓氏。

但反過來,姓氏越稀有,也越有可能成為廢柴姓氏。

對於光棍,就是一人吃飽,全家不餓。但一人吃不飽,全家都餓。對於大家庭,一個人飽不飽就無關大局了。


讀者朋友們,不懂初等概率論就別不懂裝懂發評論了,怪尷尬的。

推薦閱讀:

Quantum Mechanics
我和3個男生同時做了「一周CP」 | 氪研所
Quantum Mechanics as a Metaphor
Teaser#1
鞅與停時與賭徒必勝策略與生男生女(下)

TAG:概率论 | 数学 | 姓氏 |