姓氏越稀有，越有可能成為精英姓氏?

01-28

在知乎上看到這麼個答案https://www.zhihu.com/question/32094733/answer/242248576，大概是說，有人分析了清代江南全部兩萬多名舉人名單以及從清代滅亡到2012年當地的名牌大學生名單，通過分析他們的姓氏佔比來找出最精英的姓氏。如果這個姓氏中的舉人、名牌大學生所佔比例高於總人群平均值的五倍，則認為這個姓氏是精英姓氏。最終找到的精英姓氏是諸，竺，茅，濮，裘，巢，惲，端木，鈕，忻，薩，笪，宓。這些姓氏都相對比較少見（注意，這已經是精英姓氏了，所以更容易出現在人們的視野里），有些甚至一般人都不認識。然後這個答案得到結論：姓氏越稀有，越有可能成為精英姓氏。

這個結論其實有概率論上的解釋。

一個小家族內部，由於耕讀傳家的緣故，成員能否成功確實很不獨立。一個讀書人的兒子從小就能接觸到各種書籍，成為精英的概率遠高於一個文盲農民的兒子。但從整個江南考慮，同姓氏的各個小家族之間就相對獨立。於是，一個姓氏可以抽象成為一堆獨立的小家庭的總和。每個小家庭的精英程度是一個隨機變數，都服從同一個分布。

一個有n個小家庭的姓氏的平均精英程度是

$frac{1}{n}(X_1+cdots X_n)$ , 期望是 $mathbb{E}X$ , 方差是 $frac{1}{n}text{Var}X$ . 所以姓氏的精英程度，其期望和姓氏人口大小無關，但人口越多，方差越小。

姓氏的平均精英程度，基本是一個正態分布（中心極限定理），中心位置（期望）都一樣，但人口越多，分布越集中，人口越少，分布越分散，如圖：

所以姓氏人口越少，越有可能出現特別精英或者特別廢柴的極端情況。特別大的姓氏，其表現基本和整體人口是一樣的。比如王李張三個姓氏占人口總數的 20%以上，那麼他們不可能都是精英姓氏，否則這三個姓的精英人口佔總精英人數的100%以上。

成為精英姓氏的概率與姓氏人口數的具體關係，可以用大偏差技術來處理。我寫過一個相關的note，Mather King：大偏差技術是什麼？

簡言之，大偏差說的是，n個iid變數的均值，大於某個較大的值（比如此處的五倍精英比例）的概率，亦即『大偏差』出現的概率，會隨著n增長以指數速度下降。

假設一個有1000人口的姓氏成為精英姓氏的概率是1%，那麼一個有2000人口的姓氏成為精英姓氏的概率大概量級是1%*1%=0.01%。一個有10000人口的姓氏成為精英姓氏的概率大概量級是0.01^10=10^{-20}, 小得可以忽略。

這就非常好地解釋了為什麼姓氏越稀有，越有可能成為精英姓氏。

但反過來，姓氏越稀有，也越有可能成為廢柴姓氏。

對於光棍，就是一人吃飽，全家不餓。但一人吃不飽，全家都餓。對於大家庭，一個人飽不飽就無關大局了。

讀者朋友們，不懂初等概率論就別不懂裝懂發評論了，怪尷尬的。