怎麼抓住網路中關鍵節點

01-29

政策下鄉、進駐企業審計、推廣新平台......想做好這些事，不計預算，可以地毯式轟炸，把社交網路里每個成員都覆蓋到。如果預算或時間有限，我們就得找中樞。拿下關鍵節點，信息才傳得快，傳得遠。這篇簡短筆記就旨在介紹一種解決此類問題的新方法。前半部分介紹一種新指標，涉及一點數學，可以跳過；後半部分是兩項應用，一是傳播抽獎信息，一是推銷小額貸款，都是比較實用的例子。

$N$ 個個體間社交網路可對應 $Ntimes N$ 矩陣 $g$ 。其中，若 $i$ 和 $j$ 之間關係，記 $g_{ij}$ 為 $1$ ；沒關係，記為 $0$ ，整個網路記為 $g$ 。注意到將 $g$ 自乘 $k$ 次，則 $g_{ij}(k)$ 對應 $i$ 和 $j$ 之間長度為 $k$ 路徑數量。假設網路連通，考慮個體 $i$ ，如果他/她往外傳播一則消息，而每個收到消息的人以概率 $q$ 向外轉發這條信息，利用前述計算路徑思路可知 $H_{ij}(g;q,T)$ 對應 $T$ 期內 $i$ 從 $j$ 處接受消息總數期望。 $DC_i(g;q,T)$ 意義則是從 $i$ 處發出信息 $T$ 期內在網路中流傳總次數。

$DC$ 是已有表示網路集中度指標的推廣：若 $q=T=1$ ， $DC$ 代表相鄰節點數量。記 $lambda_1$ 是 $g$ 最大特徵值，當 $Trightarrow infty$ ，如果 $q< frac{1}{lambda_1}$ ， $DC$ 恰好等於Katz-Bonacich中心度，如果 $q>frac{1}{lambda_1}$ ， $DC$ 恰好等於特徵值中心度。上圖給出Banerjee等證明 $DC$ 在常用隨機圖模型Erdos-Renyi圖中性質，可見 $DC$ 在 $(q=E[frac{1}{lambda_1}],T=E[diam(g)])$ 處性質發生明顯變化，故他們建議用 $(q=E[frac{1}{lambda_1}],T=E[diam(g)])$ 這組值做實證，其中 $diam(g)$ 代表圖 $g$ 直徑。

這個指標很有效。Banerjee等在印度72個村莊作調查，確定人際關係網路。如有以下任一關係，記作有來往：親屬；好友；相互串門；借貸；醫藥援助；借農具、煤油或糧食；重大事項求助；祈禱。用這個網路可以計算個人 $DC$ 。問卷另有附加題：如果你要通知全村有關電影票/戲票/集會/新貸款產品消息，你會選誰？選項很集中，且近80%被提名者 $DC$ 排在全村前10%。其它集中度指標、是否與受訪者有聯繫、是否領導等因素預測力都沒有這麼強。

他們接下來做實驗，把所有村莊分三組，每個村挑3人在一周內傳播抽獎信息。第一組挑 $DC$ 值前三，第二組隨機挑，第三組挑三位老人。老人在當地社區威望很高。抽獎辦法如下：知曉消息村民撥打免費電話就算報名成功。實驗結束後一周，村民前往指定地點擲兩枚骰子，大於12點可得手機一部；小於12點得少量現金。結果如上圖所示，三組中全村抽中手機總數分別是13.8，3.9和5.5部。用 $DC$ 挑選關鍵人物效率明顯更高。

此處談點計量。作者建立上一段中結論方法是將抽中手機數量對村莊基本特徵和許多集中度指標做泊松回歸，發現僅有 $DC$ 顯著。因控制變數數和樣本數相去不遠，他們用兩步LASSO法回歸。此法由Chernozukov等在2012年提出，思路是先從一大筐控制變數中選取部分，然後再回歸。核心原理見上式，其中 $beta$ 是挑選後控制變數係數， $Psi$ 是以 $l_j$ 為元素對角陣， $left| left| cdot right| right| _1$ 是L1範數， $c$ 是大於1常數， $gamma$ 是置信度。細節請見Chernozukov等2012年研究。

上圖來Banerjee等2013年研究，背景是在印度43個村莊中推廣新小額信貸產品。橫軸是率先採取新產品村民 $DC$ ，縱軸是最終產品的採用率，明顯相關。作者同時說明： $DC$ 對現實產品擴散解釋力要比其它集中度指標好。研究放鬆同質假定，允許參與和不參與貸款兩類人有不同的 $q$ ， $q$ 及其它參數可用模擬方法估計，結果顯示貸款者宣傳新產品概率是不貸款者7倍。總之， $DC$ 是一富有潛力新指標，在很多現實問題中有應用前景。

參考文獻：

Banerjee A, Chandrasekhar A G, Duflo E, et al. The diffusion of microfinance[J]. Science, 2013, 341(6144): 1236498.

Banerjee A, Chandrasekhar A G, Duflo E, et al. Gossip: Identifying Central Individuals in a Social Network[J]. arXiv preprint arXiv:1406.2293, 2014.

Belloni A, Chernozhukov V, Hansen C. Inference on treatment effects after selection among high-dimensional controls[J]. The Review of Economic Studies, 2014, 81(2): 608-650.