基於共現網路的人物關係圖的繪製

04-21

在實驗樓上看到了一個基於共現網路畫人物關係圖的課件，不過感覺內容很實彈步驟卻不詳細，這裡專門寫一篇記事來整理一下這個過程的一些細節。

源實驗用的是《釜山行》的中文劇本，其實我們換成其他任何一部小說，結果也會變得超級有趣。這裡為了還原實驗效果，數據集仍然不變。

《釜山行》是一部喪屍災難片，我們使用python對《釜山行》劇本的人物進行關係提取操作，最終利用Gephi軟體對提取的人物關係繪製人物關係圖。這是其中一段劇本：

秀安的卧室晚上石宇推開秀安的卧室門，秀安躲在被子里正在和媽媽通著電話。秀安：我自己一個人能坐火車。為什麼，媽媽你來車站接我不就行了嗎。石宇故意敲敲房門提醒秀安他回來了，然後開了房間的燈，看到床上秀安躲在被子里的形狀。秀安：媽媽，掛了。秀安從被子里鑽出來，生著石宇的氣。石宇坐到床邊：沒關係，接著打吧。秀安：已經掛了。石宇：媽媽說你想去釜山。秀安默認。石宇：秀安，爸爸最近事可多了。下周好像可以。秀安不能理解一下嗎？秀安沒回答，抗議著。石宇想到自己還有禮物，遞給了秀安：你肯定以為我忘了吧。生日快樂。秀安拿著禮物發愣。石宇：愣著幹嗎，快點拆開啊。秀安拆開禮物，發現是一個 wii 遊戲機，又沉默了。石宇：怎麼了，不喜歡嗎？秀安看向書桌，石宇順光過去，依然桌上有一台 wii 遊戲了。石宇這才發現自己失誤了，有點懊惱。秀安：這次是兒童節收到的。秀安很失落，石宇也很愧疚。石宇：那……別的，你有沒有什麼想要的。秀安：釜山。我想去找媽媽。明天。石宇：剛才不是說了嘛，等爸爸有時間了，下次。秀安：不行，明天。每次你都說下一次，明擺著又是騙我。石宇想說什麼，秀安打斷了他。秀安：我不會佔用爸爸時間的。我自己一個人能去。石宇無奈的表情。

通過NLPIR分詞系統獲取的實體名稱，效果很差，考慮棄用；通過jieba分詞系統獲取人物名稱，結果為空；獲取實體名稱，效果很差，考慮棄用；貼上部分結果：

[(車廂, 98), (喪屍, 87), (人, 47), (廁所, 33), (常務, 30), (火車, 29), (珍熙, 29), (屍變, 24), (門, 22), (電話, 17), (乘客, 15), (隧道, 14), (列車, 14), (玻璃, 13), (少女, 13), (金, 11), (乘務長, 11), (站台, 11), (列車長, 10), (媽媽, 10), (座位, 9), (婆婆, 8), (節車廂, 8), (艙門, 8), (火車頭, 8), (乘務員, 7), (時候, 7), (隊員, 7), (手機, 7), (火車站, 6), (棒球, 6), (棒球隊, 6), (目光, 6), (頭, 6), (視頻, 6), (鐵軌, 6), (眾人, 6), (駕駛室, 5), (內, 5), (手, 5), (對面, 5), (列車員, 5), (榮國, 4), (人群, 4), (土, 4), (表情, 4), (繩子, 4), (大家, 4), (車門, 4), (信號, 4), (旅客, 4), (電視, 4), (車載, 4), (有點, 4), (司機, 4), (過道, 4), (石宇, 4), (床上, 4), (狀態, 3), (卧室, 3), (結果, 3), (代理, 3), (區, 3), (貨車, 3), (車窗, 3), (腿, 3), (畫面, 3), (對講機, 3), (傷心, 3), (海英, 3), (被子, 3), (大叔, 3), (神色, 3), (問題, 2), (臉色, 2), (身體, 2), (防線, 2), (時尚, 2), (汽車, 2), (房間, 2), (對準, 2), (剎車, 2), (鋼化, 2), (路, 2), (關門, 2), (時, 2), (眼神, 2), (成群, 2), (目標, 2), (公路, 2), (洞口, 2), (棒球棒, 2), ......]

然後就迷茫了.. 這找出來的東西和想像中的完全不一樣啊... 只好回去看電影。看完電影，很輕鬆的就把人物找齊了... 然後我們把結果放到一個列表中：

[石宇, 盛京, 珍熙, 露宿者, 尚華, 秀安, 金常務, 列車長, 金代理, 組長, 石宇的媽媽, 乘務長, 海英, 少女, 隊員, 榮國, 士兵, 組長, 奶奶, 老婆婆, 土婆婆, 鍾吉, 喪屍]

這之後，我們在文中找共現關係。共現關係，在我看來就是在一段話中前後有關聯的實體之間的關係。為了確定這種關係，我們可以按小節、段落或者句子劃分結構來找這種關係。方便起見，我們在一個句號內，尋找實體之間的關係。

# calc relationsrelations = {}f = (x for x in codecs.open(fushan.txt, r, utf-8))for line in f: line = line.strip() if not line: continue segment = line.split(。) for content in segment: # put into set relation = set() for name in names: if name in content: relation.add(name) if len(relation) <= 1: continue # process set to list temp = [] for x in relation: temp.append(x) relation = temp # process relations for index, i in enumerate(relation): for j in relation[index + 1:]: key = str(i) + + str(j) if not relations.get(key): relations[key] = 1 else: relations[key] += 1relations = sorted(relations.items(), key=lambda x: x[1], reverse=True)

[(石宇秀安, 52), (石宇尚華, 38), (石宇喪屍, 28), (盛京尚華, 19), (石宇盛京, 18), (珍熙榮國, 17), (喪屍尚華, 16), (石宇榮國, 16), (石宇石宇的媽媽, 12), (秀安露宿者, 10), (尚華榮國, 10), (盛京秀安, 9), (金常務喪屍, 9), (喪屍榮國, 7), (盛京喪屍, 7), (石宇露宿者, 7), (秀安喪屍, 6), (盛京露宿者, 6), (少女海英, 6), (秀安尚華, 6), (石宇金代理, 6), (秀安盛京, 6), (組長海英, 6), (露宿者喪屍, 5), (珍熙隊員, 5), (金常務乘務長, 4), (列車長金常務, 4), (土婆婆鍾吉, 3), (隊員榮國, 3), (石宇金常務, 3), (乘務長海英, 3), (珍熙金常務, 3), (金常務榮國, 3), (金代理組長, 3), (秀安石宇的媽媽, 3), (珍熙乘務長, 3), (金常務秀安, 3), (隊員少女, 2), (珍熙少女, 2), (露宿者尚華, 2), (乘務長喪屍, 2), (珍熙石宇, 2), (金常務盛京, 2), (石宇組長, 2), (秀安榮國, 2), (珍熙喪屍, 2), (金常務土婆婆, 1), (盛京榮國, 1), (盛京石宇, 1), (榮國石宇, 1), (喪屍海英, 1), (露宿者土婆婆, 1), (少女榮國, 1), (土婆婆喪屍, 1), (盛京土婆婆, 1), (乘務長鍾吉, 1), (秀安奶奶, 1), (土婆婆盛京, 1), (盛京士兵, 1), (喪屍士兵, 1), (土婆婆秀安, 1), (土婆婆石宇, 1), (少女喪屍, 1), (秀安土婆婆, 1), (石宇海英, 1), (喪屍鍾吉, 1), (露宿者榮國, 1), (組長喪屍, 1), (隊員喪屍, 1), (珍熙鍾吉, 1), (列車長喪屍, 1), (金常務石宇, 1), (列車長乘務長, 1), (喪屍露宿者, 1), (秀安石宇, 1), (土婆婆榮國, 1), (金常務鍾吉, 1)]

我們可以通過上述結果，計算每一個實體的「重量」，或者說，重要度。想像一下將上述元組拆開為 i[0], i[1]，將後者的值加到前者的兩個實體中。這樣就可以計算出節點的權。在圖（數據結構）中，我們經常將重要度描述為度中心性，具體可以劃分為帶權或不帶權的度中心性。

這之後，我們利用networkx繪製網路。

g = networkx.Graph()edge_list = [x[0] for x in relations]node_list = []for info in sorted(names_count.items(), key=lambda x: x[1]): node_list.append(info[0])for node in node_list: g.add_node(node)for index, i in enumerate(edge_list): g.add_edge(i.split( )[0], i.split( )[1])print(Nodes:, g.number_of_nodes())print(g.nodes())print(Edges:, g.number_of_edges())print(g.edges(), )

利用networkx內置演算法，進行小型社區尋找。

# calc comscoms = []for k in range(2,10): long_list = list(networkx.k_clique_communities(g, k)) for i in long_list: if (1 < len(i) < 10) and (i not in coms): coms.append(i)coms = sorted(coms, key=lambda x:len(x), reverse=True)coms_count = len(coms)print(Communities finds : , coms_count)for i in coms: print(i)print( )###########################Communities finds : 4frozenset({土婆婆, 金常務, 石宇, 秀安, 露宿者, 榮國, 尚華, 盛京, 喪屍})frozenset({隊員, 少女, 榮國, 喪屍, 珍熙})frozenset({乘務長, 金常務, 鍾吉, 喪屍, 珍熙})frozenset({海英, 組長, 石宇, 喪屍})

這裡插播一句... 那個啥，突然就覺得igraph要比networkx好用... networkx只有幾個可憐巴巴的函數，連力引導布局演算法和一些常見的社區劃分函數都不能實現，真是心慌。

最後，自己找的事，就自己解決吧... 我們依靠python的一些特徵，還是可以很快的完成作圖的，如下：

plt.figure(figsize=(20, 8))plt.subplot(121)networkx.draw(g, pos=networkx.spring_layout(g, k=0.5, iterations=150), labels={x:x for x in g.nodes() if x in g.nodes()}, node_size=[100 * math.sqrt(dict(names_count).get(x)) for x in g.nodes()], width_=[(dict(relations).get(str(x[1]) + + str(x[0]))) / 6 if (dict(relations).get(str(x[1]) + + str(x[0]))) else (dict(relations).get(str(x[0]) + + str(x[1]))) / 6 for x in g.edges()], alpha=0.8, arrows=False, )plt.title(基於共現網路的電影演員關係圖, fontsize=24)plt.axis(on)# calc colorsprint(各個節點顏色劃分 : )color_enum = [w, y, r, b]color_list = {}print(dict([(node, color_enum[coms.index(x)]) for x in coms for node in g.nodes() if node in x]),

)# plotplt.subplot(122)networkx.draw(g, pos=networkx.spring_layout(g, k=0.5, iterations=20), labels={x:x for x in g.nodes() if x in g.nodes()}, node_color=[dict([(node, color_enum[coms.index(x)]) for x in coms for node in g.nodes() if node in x]).get(node) if dict([(node, color_enum[coms.index(x)]) for x in coms for node in g.nodes() if node in x]).get(node) else w for node in g.nodes()], # jet hot reds cmap=plt.cm.jet, node_size=[100 * math.sqrt(dict(names_count).get(x)) for x in g.nodes()], width_=[(dict(relations).get(str(x[1]) + + str(x[0]))) / 6 if (dict(relations).get(str(x[1]) + + str(x[0]))) else (dict(relations).get(str(x[0]) + + str(x[1]))) / 6 for x in g.edges()], alpha=0.8, arrows=False, )plt.title(社區關係圖, fontsize=24)plt.axis(on)input( )plt.show()

稍微擴展一下，我們都計算了社區和節點質量，那我們還可以畫小型社區，通過這種結構，我們可以大致的了解電影人物中那幾個關係較為緊密... 。

不過通過觀察，發現這個劃分演算法對這個圖不太適用，那我們還是導出數據用gephi繪製美觀高效，最後的結果如下：

一些用到的材料和源代碼在這裡可以下載：鏈接：http://pan.baidu.com/s/1slbDGc9 密碼：6afd