數據可視化工具Gephi在社交網路數據分析中的運用| 沙龍分享

本期嘉賓:

劉勇,Gephi 官方認證講師,數據可視化開放倡議(DVOPI)的發起者。

在大數據蓬勃發展的今天,社交網路所表現出的社會影響力,遠超於人們的想像。近期網路上發生的許多事件都說明,如何衡量與呈現社交網路中信息傳播的關係與效果,是我們每個人值得思考的問題。本期線上沙龍,劉勇老師以實際案例出發,帶領大家探討數據可視化工具Gephi在社交網路數據分析中的運用,用心感受數據可視化的魅力!

1.Gephi告訴你32國的紙媒的引用關係

Gephi是一款處理關係數據的軟體。

比如在人群中,誰喜歡誰;在微博等社交媒體上,誰關注誰;在選舉中,誰投票給誰;在組織中,誰與誰有合作關係等。

人與人之間的關係數據在實際輸入Gephi時,一般格式如下:

在csv文件中,所有數據的每一行都有一個源節點指向目標節點,類似於a到b的形式。在使用文本工具進行編輯後導入Gephi,可以生成相應的圖形:

以下是不同國家的紙媒引用關係案例,進一步來看數據可視化在關係分析中的運用。

這是16個國家最具影響力的紙質媒體,查找並羅列這些媒體從2010年1月1日到2014年12月31日5年間所有文章,分析任意兩個媒體之間的引用關係。選定媒體後,統計媒體在這期間是否引用了其他媒體稿件。將引用次數進行記錄,最終形成一個大的數據表單。

上圖表格中的第一行和最左邊一列是這32種媒體的名字,從左到右是引用的關係。

以《人民日報》為例。媒體引用自家稿件視為無效的,因此《人民日報》引用《人民日報》的數量為0次,引用《中國日報》的數量是171次,引用《海峽時報》是41次。

《中國日報》引用《人民日報》的數量較多,為2800次;引用本媒為0次,引用《海峽時報》1次,引用《聯合早報》49次。

上面的表格展示了數據在excel中的情況,下圖展示這些數據在csv格式中的形式。

Gephi無法直接讀取excel的文件,在實際處理中,可通過excel另存為csv格式,再用Gephi處理。

數據初步導入Gephi中得到上圖效果

進行處理之後的情況

此時所得到的圖像是動態的。通過多次調整參數,應用不同的網路分析方法,其外觀排列或者節點的大小都會動態地發生變化。

該圖是整體圖的局部,只有《人民日報》和《中國日報》兩個節點。

Gephi的圖形有方向指向,在此圖中是按順時針的方向進行旋轉。粗的線段表示《中國日報》引用《人民日報》的數量,是2800。而較細的線段表示《人民日報》引用《中國日報》的數量。

在整體圖中可以看到,位於中間的4份報紙的節點非常大,而且醒目。

在這四份報紙中,《紐約時報》的節點最大,其他3份報紙都有較粗的線連入紐約時報,且這四個節點互相之間都有較高的連接度。總的來說,在4個節點之中,兩兩組隊的關係一共6種可能,在這個圖中,可能有5種是成立的。

從整體上來觀察,美國的節點要比英國的大。

在中國的《人民日報》和《中國日報》兩個節點中,《中國日報》比《人民日報》更活躍一點,它有兩股稍微粗的線條指向《紐約時報》和《人民日報》。但整體上其他媒體沒有大量引用他們的文章。《人民日報》指向外面的連線都很細,引用其他文章數量偏少。日本的《每日新聞》指向《人民日報》較多,存在一定量的引用。

從圖上可以看到,《人民日報》比《中國日報》離世界的核心稍微遠。假設《參考消息》參與數據分析,圖像會發生什麼樣的變化?

同一個國家的兩個節點的顏色相同,意味著同一個國家的兩個媒體距離較近。不過,最初通過Gephi得到的數據並不包括國家的信息,Gephi也並不知道哪兩個媒體屬於同一個國家。為什麼經過自動處理後,同一個國家的媒體位置會非常接近呢?

這裡可能有兩種情況,第一,同一個國家的媒體互相引用比較多,第二,同一國家的媒體有相似引用外媒的方式。

最孤獨的國家可能是智利,它被遠遠地甩在了一邊;德國和俄羅斯的位置較近;法國與很多國家交流密切;巴西距離中心也不太遠;印尼該國兩個媒體之間的間距最大的;韓國比日本遠離中心······

從總體上對上圖進行劃分,32個媒體由內到外可分為3個層次。核心層由英美兩國構成,是較強的兩個點;中間層是一個密度較高的地帶,有8個國家;外圍層包括6個國家,節點稀疏且遙遠。

以上這些可視化圖像是通過網路圖的方式觀察數據所得到的,但這種處理也不盡如人意。比如一個媒體引用其他媒體說明了什麼問題?如果選定的媒體沒有代表性的話,也代表不了不同國家之間的關係。

但是,原作者表示,他們還會採集更多的媒體去完善這項研究,這對於網路分析來說是一件值得期待的事情。

(數據來源:吳瑛, 李莉, 宋韻雅. 多種聲音一個世界:中國與國際媒體互引的社會網路分析[J]. 新聞與傳播研究, 2015(09):5-21.

2. 誰在使用Gephi?

在現實中,有哪些人在使用Gephi?他們在使用Gephi做什麼事情?對此,GephiGephi官方在2015年12月23日發布的調查問卷整理了以下數據。

以上3個表,分別說明是什麼領域、什麼職業的人在使用Gephi,以及使用它的人在研究什麼樣的數據,可得出的結論是:有較多的用戶研究社交網路和社交媒體。

3. Gephi 的基本操作

上圖是Gephi主要的操作界面。操作界面的最頂端是下拉菜單,下拉菜單下面有3個工具條,分別可以進行3種不同的操作:

【概覽】是Gephi主要編輯的區域;【數據資料】是進行數據編輯的地方;【預覽】是在列印前輸出編輯的地方。

Gephi默認狀態是【概覽】界面,界面中間有紅色的圖形編輯區域,左右兩側有兩行工具條。

使用工具條中的【工具】選項可以對節點進行編輯:包括節點的添加,邊的添加,連線的編輯,節點顏色的更改,節點位置的移動,屬性的編輯,節點標籤的編輯等;【布局】選項可以對圖的結構進行調整;【統計】選項是進行網路做分析的計算方法;【外觀】選項可以對節點和邊的色彩、大小進行調整。

Gephi插件非常豐富,過去的插件商店在:marketplace.gephi.org/,新版推出後,新的插件頁面:gephi.org/plugins/#

4.實時的人際關係數據是如何處理的?

本案例數據的來源,是通過網站(https://who.yufeg.com )對已有的人際認識關係的數據。

在數據採集前,研究者要思考怎樣收集到真正需要的數據;另外,關係種類的界定也非常重要。在關係種類確定後,需要確定關係的權重。

利用Gephi,讀入節點數據:

讀入邊的數據:

初次讀入在圖窗體:

運行布局後:

暫時模塊化後的效果:

統計後用 PageRank 計算節點的度,並在外觀中上色後,可以得到如下的圖:

5. Gephi 的統計功能

節點:利用Gephi研究網路數據分析,主要是通過統計來實現的。

社會網路分析與更廣泛的網路科學(包括統計中的功能)相比,主要區別在於社會網路分析是圍繞節點的重要性展開。例如可將一個人際關係網,抽象為一個由點和邊組成的圖:

度:

如判斷圖中哪一個節點最具影響力?最簡單的方法是查看哪個節點所連接邊的數量最多。

在Gephi統計當中,很多時候是圍繞度的統計展開的。

在一張圖中運行一種統計方法後,可在數據資料中計算出相應的數據。

Gephi處理的圖有兩種:一種是無向圖,一種是有向圖。在無向圖中計算平均度時,默認一個節點有一個邊連入,這個節點的度就是一度。

在有向圖中度的統計方式發生些變化,不是單純地用一個度來表示,它包含出度和入度。上圖中a的出度是1,因為沒有箭頭指向它,所以a的入度是零。而b出度則是0,入度是1。

在Gephi統計里,運行平均度計算時根據圖的狀態,來計算這個圖中每個節點的度。計算平均加成度與計算平均度的方法相似,但平均加成度會考慮邊的值,如果邊的值高,那麼節點的入度也會變得更高。

在統計中存在PageRank演算法,這是谷歌計算網頁權重的一種計算方式。在谷歌中輸入關鍵字進行搜索的時,會產生很多谷歌索引資料庫中的網頁與這個關鍵詞相關並生成排名。通過PageRank演算法,谷歌把計算值高的網頁靠前排列。現在,Gephi也使用了PageRank演算法,從而可以更好地優化數據。

模塊化和連接組件,它們的作用是在統計時把節點進行聚類,不同類別的節點做不同的標誌,在外觀中用不同的顏色顯示出來。

Gephi模塊化操作中有一個解析度的設置,設置的數字越小,社區越多;數字越大,社區越小。通過解析度的大小來調整社區大小,從而達到一個容易解釋的狀態。

另外,還有平均距離係數,平均距離係數是統計每個節點與它周圍的節點互相之間連接的程度。如果一個節點的距離係數值比較高,表示這個節點好友之間的連接程度比較高。

特別感謝會議助理:李佳佩

編輯:楊光

運營:黃穎

策劃:王文超 李子陽

版權聲明

本文是鏑次元數據傳媒實驗室原創稿件,歡迎個人轉發分享,其他公眾號或機構轉發引用請聯繫郵箱hy@dyclub.org或加鏑次元君Dyclub2015


推薦閱讀:

R和Python數據結構對比
2017上半年總結:數據分析轉行成功
R數據處理|基礎篇(二)

TAG:Gephi | 社交网络 | 数据分析 |