R文本挖掘初探之「天下風雲出我輩, 一入江湖歲月」

宅了三天,動手操作文本挖掘。現將結果呈現在此,順便總結下這幾天的學習,看起來還挺有意思(bu kao pu)的。

完整的計劃應該包含五個部分:

人物重要程度圖:提取人物出現頻數,繪製詞雲圖

主要人物出場次序圖:按照出場順序,繪製主要人物出場的順序和活躍的階段。

人物關係圖:提取人物關係(節點和邊),繪製關係圖譜。

故事展開地圖:提取文中地理位置出現的先後,繪製地圖,並標明先後變化軌跡。

武功招式圖:武功招式出現的頻數,繪製詞雲圖。

目前只完成了前三個人物,本文只展示這三個作品,其他的後續貼文章,實現過程也會在後面記錄下來。

1. 人物重要程度詞雲圖

名字的大小表徵該角色的出鏡率的高低。採用一把劍的來組織詞雲,還是蠻符合笑傲江湖主題的。

主要人物熱度詞雲圖

2. 主要人物出場次序圖

不解釋,直接上圖

令狐沖和林平之出場情況比較

圖中可以看出這兩個人物基本貫穿整部小說。。。相比於沖哥極高且分布較為均勻的樣子,林平之倒是像是故事的各種線索:故事從他開始展開,關鍵環節他總是會出現,一點都不落下。唉,悲劇的人生就是給別人精彩的人生當坐標,串故事。

令狐沖、林平之、田伯光、岳不群、岳靈珊出場情況

這張圖將令狐沖、林平之、田伯光、岳不群、岳靈珊這5個人物出場情況展示在一張圖上,不得不說小師妹跟林師弟真的是天生一對。。。出現也是成雙成對形影不離。田伯光這個人物看原著的時候知道他出鏡率蠻高,可是沒想到有結果這麼高。。。說實話還是蠻喜歡這個採花大盜的。

主要人物出場分面圖

前兩張圖在人物很少的情況下能夠清晰的展現一些人物的出場情況,但是想要把所有主要人物的出場情況都表現出來如果都化成一張圖(下一張)顏色的交織會使得觀察的不夠明顯,於是採用分面圖來表示Top21(一共有130+號人物出場,打醬油的路人甲除外)的人物上鏡情況。可以既關注某個角色,又可以相互對比,其樂融融啊。。。基本是按熱度排行,我們的聖姑除外。為了對比把所有Top21都畫在一個圖上的也傳上來:

主要人物複合時間線圖

3.人物關係圖

人物關係圖是最」複雜「」和」糾結」的了。。。

笑傲江湖人物關係圖

笑傲江湖人物關係圖

笑傲江湖人物關係圖

笑傲江湖人物關係圖

大家也可以加小編微信:tswenqu,進R語言中文社區 交流群。


推薦閱讀:

時間是最好的檢驗者
R語言實戰之簡單數據處理
SQL編程格式的優化建議
如何看待亞馬遜也刷好評?

TAG:R编程语言 | 数据分析 | 文本挖掘 |