挖掘虎嗅網4萬篇文章，展現中國互聯網江湖

02-08

本文作者將結合自身經驗，並以實際案例的形式進行呈現，涉及從數據採集、數據清洗、數據分析再到數據可視化的一整套流程分析，力求條理清晰的展現外部數據分析的強大威力。enjoy~

在八月份，筆者曾經寫過一篇針對外部數據分析的文章，一部分讀者看過此文後，向筆者反映，說對外部數據的分析跳出了原有的只針對企業內部數據分析（用戶數據、銷售數據、流量數據等）的窠臼，在企業自身數據資源不足或質量不佳的情況下，往往能給產品、運營、營銷帶來意想不到的啟迪，為數據化驅動業務增長打開了一扇窗……

由於筆者所在的新浪微輿情是一家社會化大數據領域的語義分析公司，近期從數據分析崗轉到數據產品崗後，不可避免的涉及到許多大數據語義分析的實際應用場景。由此，筆者將工作中的若干心得，以實際案例的形式進行呈現，涉及從數據採集、數據清洗、數據分析再到數據可視化的一整套流程分析，力求條理清晰的展現外部數據分析的強大威力。以下是本文的寫作框架：

1. 分析背景

1.1 分析原理：為什麼選擇分析虎嗅網

在現今數據爆炸、信息質量良莠不齊的互聯網時代，我們無時無刻不身處在互聯網社會化媒體的「信息洪流」之中，因而無可避免的被它上面泛濫的信息所「裹挾」，也就是說，社會化媒體上的信息對現實世界中的每個人都有重大影響，社會化媒體是我們間接了解現實客觀世界和主觀世界的一面窗戶，我們每時每刻都在受到它的影響。關於「社會化媒體」方面的內容，請參看《乾貨｜如何利用Social Listening從社會化媒體中「提煉」有價值的信息？》，以下內容也摘自該文：

綜合上述兩類情形，可以得出這樣的結論，透過社會化媒體，我們可以觀察現實世界：

由此，社會化媒體是現實主客觀世界的一面鏡子，而它也會進一步影響人們的行為，如果我們對該領域中的優質媒體所發布的信息進行分析，除了可以了解該領域的發展進程和現狀，還可以對該領域的人群行為進行一定程度的預判。

鑒於此種情況，作為互聯網從業者的筆者想分析一下互聯網行業的一些現狀，第一步是找到在互聯網界有著重要影響力媒體，上次分析的是「人人的是產品經理」（請參看《乾貨｜作為一個合格的「增長黑客」，你還得重視外部數據的分析！》），這次筆者想到的是虎嗅網。

虎嗅網創辦於2012年5月，是一個聚合優質創新信息與人群的新媒體平台。該平台專註於貢獻原創、深度、犀利優質的商業資訊，圍繞創新創業的觀點進行剖析與交流。虎嗅網的核心，是關注互聯網及傳統產業的融合、一系列明星公司（包括公眾公司與創業型企業）的起落軌跡、產業潮汐的動力與趨勢。

因此，對該平台上的發布內容進行分析，對於研究互聯網的發展進程和現狀有一定的實際價值。

1.2 本文的分析目的

筆者在本項目中的分析目的主要有4個：

（1）對虎嗅網內容運營方面的若干分析，主要是對發文量、收藏量、評論量等方面的描述性分析；

（2）通過文本分析，對互聯網行業的一些人、企業和細分領域進行趣味性的分析；

（3）展現文本挖掘在數據分析領域的實用價值；

（4）將雜蕪無序的結構化數據和非結構化數據進行可視化，展現數據之美。

1.3 分析方法：分析工具和分析類型

本文中，筆者使用的數據分析工具如下：

Python3.5.2（編程語言）

Gensim（詞向量、主題模型）

Scikit-Learn（聚類和分類）

Keras（深度學習框架）

Tensorflow（深度學習框架）

Jieba(分詞和關鍵詞提取)

Excel（可視化）

Seaborn（可視化）

新浪微輿情（情緒語義分析）

Bokeh（可視化）

Gephi（網路可視化）

Plotly（可視化）

使用上述數據分析工具，筆者將進行2類數據分析：第一類是較為傳統的、針對數值型數據的描述下統計分析，如閱讀量、收藏量等在時間維度上的分布；另一類是本文的重頭戲---深層次的文本挖掘，包括關鍵詞提取、文章內容LDA主題模型分析、詞向量/關聯詞分析、ATM模型、辭彙分散圖和詞聚類分析。

2. 數據採集和文本預處理

2.1 數據採集

筆者使用爬蟲採集了來自虎嗅網主頁的文章（並不是全部的文章，但展示在主頁的信息是主編精挑細選的，很具代表性），數據採集的時間區間為2012.05~2017.11，共計41,121篇。採集的欄位為文章標題、發布時間、收藏量、評論量、正文內容、作者名稱、作者自我簡介、作者發文量，然後筆者人工提取4個特徵，主要是時間特徵（時點和周幾）和內容長度特徵（標題字數和文章字數），最終得到的數據如下圖所示:

2.2 數據預處理

數據分析/挖掘領域有一條金科玉律：「Garbage in, Garbage out」，做好數據預處理，對於取得理想的分析結果來說是至關重要的。本文的數據規整主要是對文本數據進行清洗，處理的條目如下：

（1）文本分詞

要進行文本挖掘，分詞是最為關鍵的一步，它直接影響後續的分析結果。筆者使用jieba來對文本進行分詞處理，它有3類分詞模式，即全模式、精確模式、搜索引擎模式：

精確模式：試圖將句子最精確地切開，適合文本分析；

全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；

搜索引擎模式：在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。

現以「新浪微輿情專註於社會化大數據的場景化應用」為例，3種分詞模式的結果如下：

【全模式】: 新浪/ 微輿情/ 新浪微輿情/ 專註/於/ 社會化/ 大數據/ 社會化大數據/ 的/ 場景化/ 應用

【精確模式】: 新浪微輿情/ 專註/於/ 社會化大數據/ 的/ 場景化/ 應用

【搜索引擎模式】：新浪，微輿情，新浪微輿情，專註，於，社會化，大數據，社會化大數據，的，場景化，應用

為了避免歧義和切出符合預期效果的辭彙，筆者採取的是精確（分詞）模式。

（2）去停用詞

這裡的去停用詞包括以下三類：

標點符號：，。！ /、*+-

特殊符號：?????????????▲?等

無意義的虛詞：「the」、「a」、「an」、「that」、「你」、「我」、「他們」、「想要」、「打開」、「可以」等

（3）去掉高頻詞、稀有詞和計算Bigrams

去掉高頻詞、稀有詞是針對後續的主題模型（LDA、ATM）時使用的，主要是為了排除對區隔主題意義不大的辭彙，最終得到類似於停用詞的效果。

Bigrams是為了自動探測出文本中的新詞，基於辭彙之間的共現關係---如果兩個詞經常一起毗鄰出現，那麼這兩個詞可以結合成一個新詞，比如「數據」、「產品經理」經常一起出現在不同的段落里，那麼，「數據_產品經理」則是二者合成出來的新詞，只不過二者之間包含著下劃線。

3. 描述性分析

該部分中，筆者主要對數值型數據進行描述性的統計分析，它屬於較為常規的數據分析，能揭示出一些問題，做到知其然，關於數據分析的4種類型，詳情請參看《乾貨｜作為一個合格的「增長黑客」，你還得重視外部數據的分析！》的第一部分。

3.1 發文數量、評論量和收藏量的變化走勢

從下圖可以看出，在2012.05~2017.11期間，以季度為單位，主頁的發文數量起伏波動不大，在均值1800上下波動，進入2016年後，發文數量有明顯提升。

此外，一頭（2012年第二季）一尾（2017年第四季）因為沒有統計完全，所以發文數量較小。

下圖則是該時間段內收藏量和評論量的變化情況，評論量的變化不慍不火，起伏不大，但收藏量一直在攀升中，尤其是在2017年的第二季達到峰值。收藏量在一定程度上反映了文章的乾貨程度和價值性，讀者認為有價值的文章才會去保留和收藏，反覆閱讀，含英咀華，這說明虎嗅的文章質量在不斷提高，或讀者的數量在增長。

3.2 發文時間規律分析

筆者從時間維度里提取出「周」和「時段」的信息，也就是開題提到的「人工特徵」的提取，現在做文章分布數量的在「周」和「時」上的交叉分析，得到下圖：

上圖是一個熱力圖，色塊顏色上的由暖到冷表徵數值的由大變小。很明顯的可以看到，中間有一個顏色很明顯的區域，即由「6時~19時」和「周一~周五」圍成的矩形，也就是說，發文時間主要集中在工作日的白天。另外，周一到周五期間，6時~7時這個時間段是發文的高峰，說明虎嗅的內容運營人員傾向於在工作日的清晨發布文章，這也符合它的人群定位---TMT領域從業、創業者、投資人，他們中的許多人有晨讀的習慣，喜歡在趕地鐵、坐公交的過程中閱讀虎嗅訊息。發文高峰還有9時-11時這個高峰，是為了提前應對讀者午休時間的閱讀，還有17時~18時，提前應對讀者下班時間的閱讀。

3.3 相關性分析

筆者一直很好奇，文章的評論量、收藏量和標題字數、文章字數是否存在統計學意義上的相關性關係。基於此，筆者繪製出能反映上述變數關係的兩張圖。

首先，筆者做出了標題字數、文章字數和評論量之間的氣泡圖（圓形的氣泡被六角星替代，但本質上還是氣泡圖）。

上圖中，橫軸是文章字數，縱軸是標題字數，評論數大小由六角星的大小和顏色所反映，顏色越暖，數值越大，五角星越大，數值越大。從這張圖可以看出，文章評論量較大的文章，絕大部分分布於由文章字數6000字、標題字數20字所構成的區域內。虎嗅網上的商業資訊文章大都具有原創、深度的特點，文章篇幅中長，意味著能把事情背後的來龍去脈論述清楚，而且標題要能夠吸引人，引發讀者的大量閱讀，合適長度標題和正文篇幅才能做到這一點。

接下來，筆者將收藏量、評論量和標題字數、文章字數繪製成一張3D立體圖，X軸和Y軸分別為標題字數和正文字數，Z軸為收藏量和評論量所構成的平面，通過旋轉這個3維的Surface圖，我們可以發現收藏量、評論量和標題字數、文章字數之間的相關關係。

注意，上圖的數值表示和前面幾張圖一樣，顏色上的由暖到冷表示數值的由大到小，通過旋轉各維度的截面，可以看到在正文字數5000字以內、標題字數15字左右的收藏量和評論量形成的截面出現「華山式」陡峰，因而這裡的收藏量和評論量最大。

3.4 城市提及分析

在這裡，筆者通過構建一個包含全國1~5線城市的詞表，提取出經過預處理後的文本中的城市名稱，根據提及頻次的大小，繪製出一張反映城市提及頻次的地理分布地圖，進而間接地了解各個城市互聯網的發展狀況（一般城市的提及跟互聯網產業、產品和職位信息掛鉤，能在一定程度上反映該城市互聯網行業的發展態勢）。

上圖反映的結果比較符合常識，北上深廣杭這些一線城市的提及次數最多，它們是互聯網行業發展的重鎮。值得注意的是，長三角地區的大塊區域（長江三角洲城市群，它包含上海，江蘇省的南京、無錫、常州、蘇州、南通、鹽城、揚州、鎮江、泰州，浙江省的杭州、寧波、嘉興、湖州、紹興、金華、舟山、台州，安徽省的合肥、蕪湖、馬鞍山、銅陵、安慶、滁州、池州、宣城）呈現出較高的熱度值，直接說明這些城市在虎嗅網各類資訊文章中的提及次數較多，結合國家政策和地區因素，可以這樣理解地圖中反映的這個事實：

長三角城市群是「一帶一路」與長江經濟帶的重要交匯地帶，在中國國家現代化建設大局和全方位開放格局中具有舉足輕重的戰略地位。中國參與國際競爭的重要平台、經濟社會發展的重要引擎，是長江經濟帶的引領發展區，是中國城鎮化基礎最好的地區之一。

接下來，筆者將抽取文本中城市之間的共現關係，也就是城市之間兩兩同時出現的頻率，在一定程度上反映出城市間經濟、文化、政策等方面的相關關係，共現頻次越高，說明二者之間的聯繫緊密程度越高，抽取出的結果如下表所示：

將上述結果繪製成如下動態的流向圖：

由於虎嗅網上的文章大多涉及創業、政策、商業方面的內容，因而這種城市之間的共現關係反映出城際間在資源、人員或者行業方面的關聯關係，本動態圖中，主要反映的是北上廣深杭（網路中的樞紐節點）之間的相互流動關係和這幾個一線城市向中西部城市的單向流動情形。流動量大、交錯密集的區域無疑是中國最發達的3個城市群和其他幾個新興的城市群：

京津冀城市群

長江三角洲城市群

珠江三角洲城市群

中原城市群

成渝城市群

長江中游城市群

上面的數據分析是基於數值型數據的描述性分析，接下來，筆者將進行更為深入的文本挖掘。

4. 文本挖掘

數據挖掘是從有結構的資料庫中鑒別出有效的、新穎的、可能有用的並最終可理解的模式；而文本挖掘（在文本資料庫也稱為文本數據挖掘或者知識發現）是從大量非結構的數據中提煉出模式，也就是有用的信息或知識的半自動化過程。關於文本挖掘方面的相關知識，請參看《數據運營|數據分析中，文本分析遠比數值型分析重要！（上）》、《在運營中，為什麼文本分析遠比數值型分析重要？一個實際案例，五點分析（下）》。

本文的文本挖掘部分主要涉及高頻詞統計/關鍵詞提取/關鍵詞雲、文章標題聚類、文章內容聚類、文章內容LDA主題模型分析、詞向量/關聯詞分析、ATM模型、辭彙分散圖和詞聚類分析。

4.1 關鍵詞提取

對於關鍵詞提取，筆者沒有採取詞頻統計的方法，因為詞頻統計的邏輯是：一個詞在文章中出現的次數越多，則它就越重要。因而，筆者採用的是TF-IDF（termfrequency–inverse document frequency）的關鍵詞提取方法：

它用以評估一字/詞對於一個文件集或一個語料庫中的其中一份文件的重要程度，字/詞的重要性會隨著它在文件中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。

由此可見，在提取某段文本的關鍵信息時，關鍵詞提取較詞頻統計更為可取，能提取出對某段文本具有重要意義的關鍵詞。

下面是筆者利用jieba在經預處理後的、近400MB的語料中抽取出的TOP100關鍵詞。

從宏觀角度來看，從上面可以明顯的識別出3類關鍵詞：

公司品牌類：虎嗅網、蘋果、騰訊、蘋果、小米等；

行業領域類：行業、電商、遊戲、投資、廣告、人工智慧、智能手機等；

創業、商業模式類：模式、創新、業務、運營、流量、員工等。

從微觀角度來看，居於首要位置的是「用戶」，互聯網從業者放在嘴邊的是「用戶為王」、「用戶至上」和「以用戶為中心」，然後是「平台」和「企業」。

筆者選取TOP500關鍵詞來繪製關鍵詞雲。因為虎嗅的名字來源於英國當代詩人Siegfried Sassoon的著名詩句「In me the tigersniffs the rose（心有猛虎，細嗅薔薇），所以詞雲以「虎嗅薔薇」為背景，找不到合適的虎嗅薔薇的畫面，於是用它的近親貓作為替代，詞雲如下：

4.2 LDA主題模型分析

剛才針對關鍵詞的分類較為粗略，且人為劃分，難免有失偏頗，達不到全面的效果。因此，筆者採用LDA主題模型來發現該語料中的潛在主題。關於LDA主題模型的相關原理，請參看《【乾貨】用大數據文本挖掘，來洞察「共享單車」的行業現狀及走勢》的第4部分。

一般情況下，筆者將主題的數量設定為10個，經過數小時的運行，得到如下結果：

可以看出，經過文本預處理後的語料比較純凈，通過每個主題下的「主題詞」，可以很容易的從這10個簇群中辨析出若干主題，不過，其中3個主題存在雜糅的情況（每個topic下包含2個主題），但這不影響筆者的後續分析，主題分類如下表所示：

電商&O2O：該主題包含2個部分，即各大電商平台（淘寶、京東等）上的零售；O2O(Online線上網店Offline線下消費)，商家通過免費開網店將商家信息、商品信息等展現給消費者，消費者在線上進行篩選服務，並支付，線下進行消費驗證和消費體驗。

巨頭戰略：主要是國內BAT三家的營收、融資、併購，以及涉足互聯網新領域方面的資訊。

用戶&社交：主要涉及用戶和社會化媒體（微博、QQ、微信、直播平台等）方面的資訊。

創業：涉及創業人、創新模式、創業公司等一切關於創業的話題，令筆者印象最為深刻的是創業維艱。

人工智慧：進入移動互聯網時代，各類線上數據的不斷積累和硬體技術的突飛猛進，大數據時代已然來臨，隨之而來的還有人工智慧，該領域是時下國內外IT巨頭角逐的焦點。

智能手機：智能手機的普及是移動互聯網時代興起的催化劑之一，2012年以來，「東風（國內智能手機企業）」逐漸壓倒「西風（國外智能手機企業）」，國產智能手機品牌整體崛起，蘋果、小米和鎚子的每一次手機發布會總能在互聯網界引起一片熱議。

影視娛樂：影視文化產業作為政策力挺、利潤巨大的行業，吸引著無數資本的目光。在金融資本與電影產業碰撞出「火花」的背後，是中國影視消費市場的快速崛起。國外好萊塢大片的不斷引進和票房屢創新高，直接刺激著國內影視從業者提升自身的編劇和製片水平，由此誕生了一大批影視佳作，如近三年來的《夏洛特煩惱》、《湄公河行動》、《戰狼2》。

互聯網金融：互聯網金融（ITFIN）是指傳統金融機構與互聯網企業利用互聯網技術和信息通信技術實現資金融通、支付、投資和信息中介服務的新型金融業務模式。2011年以來至今，互聯網金融所經歷的是突飛猛進的實質性的金融業務發展階段，在這個過程中，國內互聯網金融呈現出多種多樣的業務模式和運行機制。該主題下，第三個主題詞「樂視」赫然在目，從2014年年底賈躍亭宣布樂視「SEE計劃「到2017年10月中旬，樂視網巨虧16億，賈躍亭財富縮水400億也不到3年，「眼看他起朱樓,眼看他宴賓客…「

無人駕駛：無人駕駛是通過人工智慧系統實現無人駕駛的智能汽車，它在本世紀尤其是近5年呈現出接近實用化的趨勢，比如，谷歌自動駕駛汽車於2012年5月獲得了美國首個自動駕駛車輛許可證，現在特斯拉的無人駕駛汽車已經在市場上在銷售。隨著技術上和硬體上的不斷進步，它日趨成熟，成為國內互聯網巨頭的都想要摘得的桂冠。

遊戲&IP：網路遊戲被指是除了互聯網金融之外撈金指數最強勁的互聯網行業，從最近"王者榮耀"成都主創團隊年終獎事件的引爆就能看出端倪，更不用說時下的流行語「吃雞」了；同時，隨著互聯網IP產業的不斷深化發展，體育、娛樂、文學等領域對版權和IP的重視程度越來越高，當下的互聯網+時代，IP更是呈現了多元化的發展形勢。

以下是上述各個話題在這4W多篇文章中的佔比情況，可以明顯的看出，虎嗅首頁上的文章對互聯網行業各大巨頭的行業動向報道較多，其次是不斷崛起的影視娛樂，除了無人駕駛方面的報道偏少以外，其他主題方面的文章的報道量差異不大，比較均衡。

再次是各主題的文章數量在時間上的變化情況：

上圖中，我們可以明顯的看出「巨頭戰略」這一話題的首頁發文量始終維持在一個較高的水平，其次是「人工智慧」的話題，它在虎嗅網主頁2013年第一季度出現一個報道小高潮。值得注意的是，「互聯網金融」在2014年第3個季度的報道量較大，從中可以獲悉這個階段的互聯網金融正處於一個爆發的階段，這個時段互金行業的重大事件有：小米投資積木盒子進軍互聯網金融（9.10）、京東發布消費金融戰略（9.24）、螞蟻金服集團成立（10.16），以及整個2014年是「眾籌元年」，P2P步入洗牌季、以及央行密集令直指監管互聯網金融，這些事件或政策都足以引發互聯網界人士的熱議，造成這一時段聲量的驟然升起。

4.3 情緒分析&LDA主題模型交叉分析

結合上述LDA主題模型分析的結果，筆者使用新浪微輿情的情緒語義分析模型（該模型有6類情緒，即喜悅、憤怒、悲傷、驚奇、恐懼和中性），對這些文章的標題進行情緒分析，得出各個文章的情緒標籤，處理結果如下表所示：

將主題和情緒維度進行交叉分析，得出下圖：

從上圖中可以看出，各個主題下的標題的情緒以中性為主，凸顯作者和官方的客觀和中立態度，但是在現今標題黨橫行和全民重口味的時代，擬標題上的過分中立也意味著平淡無奇，難以觸發讀者的閱讀行為，正所謂「有性格的品牌，有情緒的營銷」，能成功挑起讀者情緒的作者絕對是高手，所以，在上圖中除了中性情緒外，居於第二位的是憤怒，狂撕狂懟，點燃讀者的情緒；再次是悲傷，在現實生活中，傷感總能引起同情與共鳴。

4.4 ATM模型

在這個部分，筆者想了解「虎嗅網上各個作家的寫作主題，分析某些牛X作家喜歡寫哪方面的文章（比如「行業洞察」、「爆品營銷」、「新媒體運營」等），以及寫作主題類似的作者有哪些。

為此，筆者採用了ATM模型進行分析，注意，這不是自動取款機的縮寫，而是author-topicmodel：

ATM模型（author-topic model）也是「概率主題模型」家族的一員，是LDA主題模型（Latent Dirichlet Allocation ）的拓展，它能對某個語料庫中作者的寫作主題進行分析，找出某個作家的寫作主題傾向，以及找到具有同樣寫作傾向的作家，它是一種新穎的主題探索方式。

首先，筆者去除若干發布文章數為1的作者，再從文本中「析出」若干主題，因為文本數量有刪減，所以跟之前的主題劃分不太一致。根據各個主題下的主題詞特徵，筆者將這10個主題歸納為：「行業新聞」、「智能手機」、「創業&投融資」、「互聯網金融」、「新媒體&營銷」、「影視娛樂」、「人工智慧」、「社會化媒體」、「投融資&併購」和「電商零售」。

接下來，筆者將會對一些自己感興趣的作者的寫作主題及其相關作者進行一定的分析。

首先是鎚子科技的創始人羅永浩，筆者一直認為他是一個奇人，之前看到他在虎嗅網上有署名文章，所以想看他在虎嗅網上寫了啥：

從老羅的寫作主題及其概率分布來看，他比較傾向於寫創業、融資、智能手機和新媒體營銷方面的文章，這個比較符合大眾認知，因為善打情懷牌的老羅喜歡談創業、談自己對於手機的理解，而且由於自己鮮明的個性和犀利的語言，他常常在為自己的鎚子品牌代言。

根據文檔ID，筆者找到了他發布的這幾篇文章：

單看標題，ATM模型還是蠻聰明的，能從老羅的文章中學習到了他的寫作主題。

接下來是寫作主題與老羅相近的虎嗅網作家，他們的發布文章數大於3篇：

接下來是虎嗅自己的媒體，主頁上發文量破萬，所涉及的寫作主題集中在「行業新聞」、「智能手機」和「新媒體&營銷」：

與其寫作主題類似的作者除了一些個人自媒體人，還包括一些媒體，如環球網、財富中文網、彭博商業周刊等。從前面的分析中可以推測出，他們在上述3個話題上的發文量也比較大。

在這10,189篇文章里，筆者按文檔ID隨機抽取出其中的若干篇文章的標題，粗略驗證下。然後，把這些標題繪製成獨角獸形狀的詞雲。

由上面的標題及其關鍵詞雲，預測的主題還是比較合理的。

再看看另外兩個筆者比較感興趣的自媒體---混沌大學和21世紀經濟報道。

從上面2個圖可以看出，混沌大學關注的領域主要是「創業&投融資」、「新媒體&營銷」方面的話題，偏向於為創業者提供創業相關的技能；而21世紀經濟報道則更青睞「投融資&併購」、「行業新聞」和「智能手機」方面的話題，這比較符合該媒體的報道風格---分析國際形式、透視中國經濟、觀察行業動態和引導良性發展，有效地反映世界經濟格局及變化，跟蹤報道中國企業界的動態與發展。

4.5 辭彙分散圖

接下來，筆者想了解虎嗅網主頁這4W+文章中的某些辭彙在2012.05~2017.11之間的數量分布和他們的位置信息（the locationof a word in the text），這時可以利用Lexical dispersion plot（辭彙分散圖）進行分析，它可以揭示某個辭彙在一段文本中的分布情況（Producea plot showing the distribution of the words through the text）。

筆者先將待分析的文本按時間順序進行排列，分詞後再進行Lexical DispersionPlot分析。因此，文本字數的累積增長方向與時間正向推移的方向一致。圖中縱軸表示辭彙，橫軸是文本字數，是累加的；藍色豎線表示該辭彙在文本中被提及一次，對應橫軸能看到它所處的位置信息，空白則表示無提及。藍色豎線的密集程度及起位置代表了該辭彙在某一階段的提及頻次和所在年月。

從上面的關鍵詞和主題詞中，筆者挑揀出14個辭彙進行分析，結果如下：

從上圖中可以看出，「智能手機」、「移動支付」、「O2O」和「雲計算」這4個詞在近6年的熱度居高不下，提及頻次很高，在條柱上幾近飽和。相較之下，「互聯網教育」、「3D列印」、「在線直播」這些在虎嗅網上的報道量不大，從始至終只是零零星星的有些提及。

值得注意的是，「共享單車」在後期提及次數顯著增加，而且是爆髮式的出現，這與共享單車出現比較吻合，關於共享單車方面的數據分析，請參看《【乾貨】用大數據文本挖掘，來洞察「共享單車」的行業現狀及走勢》。

4.6 詞向量/關聯詞分析---當我們談論XX時我們在談論什麼

基於深度神經網路的詞向量能從大量未標註的普通文本數據中無監督地學習出詞向量，這些詞向量包含了辭彙與辭彙之間的語義關係，正如現實世界中的「物以類聚，類以群分」一樣，辭彙可以由它們身邊的辭彙來定義（Words can be defined by the company they keep）。

從原理上講，基於詞嵌入的Word2vec是指把一個維數為所有詞的數量的高維空間嵌入到一個維數低得多的連續向量空間中，每個單詞或片語被映射為實數域上的向量。把每個單詞變成一個向量，目的還是為了方便計算，比如「求單詞A的同義詞」，就可以通過「求與單詞A在cos距離下最相似的向量」來做到。

接下來，通過Word2vec，筆者查找出自己感興趣的若干辭彙的關聯詞，從而在虎嗅網的這個獨特語境下去解讀它們。

由此，筆者依次對「百度」、「人工智慧」、「褚時健」和「羅振宇」這幾個關鍵詞進行關聯詞分析。

出來的都是與百度相關的辭彙，不是百度的產品、公司，就是百度的CEO和管理者，「搜索」二字變相的出現了很多次，它是百度起家的一大法寶。

與「AI」相關的辭彙也是很好的解釋了人工智慧的細分領域和目前比較火的幾個應用場景。

與褚時健一樣，相關詞中前幾位名人（牛根生、胡雪岩、魯冠球、王永慶和宗慶後）也是名噪一時的商業精英，「老爺子」、「褚老」、「橙王」是外界對其的尊稱。有意思的是，褚老也有一些政治人物（毛主席和蔣委員長）那樣的英雄氣概，其人其事大有「東隅已逝，桑榆非晚」、「待從頭，收拾舊山河」的豁達精神和樂觀主義！

再就是資深媒體人和傳播專家羅振宇了，「知識變現」的踐行者，他的許多見解都能顛覆群眾原有的觀念。與羅胖相類似的人還有申音（互聯網真人秀《怪傑》的創始人和策劃人，羅振宇的創業夥伴）、吳曉波（吳曉波頻道和社群的創始人）、Papi醬（知名搞笑網紅）、馬東（現「奇葩說」主持人）、李翔（得到APP上《李翔商業內參》的推出者）、姬十三（果殼網創始人）、李笑來（財務自由知名佈道者）、吳伯凡（詞沒切全，《21世紀商業評論》發行人，作品有《冬吳相對論》和《伯凡日知錄》）…

4.7 對互聯網百強公司旗下品牌的詞聚類與詞分類

2016年互聯網百強企業的互聯網業務收入總規模達到1.07萬億元，首次突破萬億大關，同比增長46.8%，帶動信息消費增長8.73%。數據顯示，互聯網領域龍頭企業效應越來越明顯，對他們的研究分析能幫助我們更好的了解中國互聯網行業的發展概況和未來方向。

筆者在這裡選取2016年入選的互聯網百強企業，名單如下：

對於上述百強互聯網公司的旗下品牌名錄，筆者利用上面訓練出來的詞向量模型，用來進行下面的詞聚類和詞分類。

4.7.1 詞聚類

運用基於Word2Vec（詞向量）的K-Means聚類，充分考慮了辭彙之間的語義關係，將餘弦夾角值較小的辭彙聚集在一起，形成簇群。下圖是高維詞向量壓縮到2維空間的可視化呈現：

筆者將詞向量模型中所包含的所有辭彙劃定為300個類別，看看這種設定下的品牌聚類效果如何。分析結果和規整如下所示：

從上述結果來看，有些分類是比較好理解的，如途風（網）和驢媽媽旅遊網，都是做旅遊的，人人貸、陸金所和拍拍貸是搞互金的，這些辭彙是在「行業的語境」里出現的次數較多，基於同義關係聚類在一起，同屬一個行業。但其中大多數的聚類不是按行業來的，而是其他的語境中出現，且看下面這兩段話：

第一波人口紅利是從2011年開始的，這波人口是原來核心的三億重度互聯網網民，或者簡單地說，是那個年代去買小米手機和iPhone的這波用戶，當然也包括三星。他們是一二線城市裡邊比較偏年輕的這些人口。所以你看包括我們自己投資的美圖、知乎、今日頭條、小米都是跟著這波人口起來的。

第二波人口是從2013年、2014年開始發生的，這波人口是什麼？這波人口實際上是移動互聯網往三四線城市下沉造成的人口紅利，是二三四線城市裡面比較年輕的人口。大家簡單想一下買OPPO、ViVO手機的人。這波紅利帶來了包括快手、映客等一系列的興起，包括微博的二次崛起。

上面加粗加黑的品牌雖然不同屬一個行業，但都出現在「移動互聯網的人口紅利」的語境中，所以單從這個語境來說，它們可以聚為一類。

所以，上述的聚類可能是由於各類辭彙出現在不同的語境中，深挖的話，或許能發現到若干有趣的線索。篇幅所限，這個就留給有好奇心的讀者來完成吧。

4.7.2 詞分類

在這裡，筆者還是利用之前訓練得出的詞向量，通過基於CNN（ ConvolutionalNeural Networks，卷積神經網路）做文本分類，用來預測。CNN的具體原理太過複雜，筆者在這裡不做贅述，感興趣的小夥伴可以查閱後面的參考資料。

由於文本分類（Text Classification）跟上面的文本聚類（Text Cluster）在機器學習中分屬不同的任務，前者是有監督的學習（所有訓練數據都有標籤），後者是無監督的學習（數據沒有標籤），因而，筆者在正式的文本分類任務開始前，先用有標註的語料訓練模型，再來預測後續的未知的文本。

在這裡，筆者根據互聯網企業所屬細分領域的不同，劃分為17個類別，每個類別只有很少的標註語料參與訓練，也就是幾個詞罷了。對，你沒看錯，藉助外部語義信息（之前訓練好的詞向量模型，已經包含有大量的語義信息），你只需要少許的標註語料就可以完成分類模型的訓練。

接著，筆者用之前未出現在訓練語料中的詞來檢驗效果，出來的結果是類別標籤及其對應的概率，概率值大的類別是品牌最有可能從屬的細分領域。結果如下圖所示：

上述的結果都符合大家的基本認知，小規模測試下，準確率尚可，最後來一個難度大一點的，國外一家筆者從未知曉的互聯網公司：

通過Google，筆者了解到Waze是以色列一家做眾包導航地圖的科技公司。前一段時間火了一把，被Google 10億美元收購了。其產品雖然沒有Google地圖那樣強大的衛星圖片作支撐，但是可以向用戶社區提供有關交通狀況、交通事故以及測速區等實時信息（地圖彈幕即視感）。「眾包」和「實時信息」分別對應「共享經濟」和「即時通訊」，比較符合預測標籤所表徵的內涵，能在一定程度上預測出該企業的業務屬性。

4.8 互聯網百強公司的共現分析

上面所做的關於互聯網百強公司的聚類分析和分類分析，看起來是「黑匣子」，其內在的機理，我們不太容易理解。接下來，筆者將基於「圖論」來做品牌共現分析，從網路的角度來分析百強企業品牌之間的關聯關係。

提取出上述百強企業品牌的相互共現關係，形成如下的社交網路圖：

上圖中，每個節點代表一個人物，線條粗細代表品牌與品牌之間的強弱鏈接關係，相同顏色的節點表示它們（在某種條件下）同屬於一類。節點及字體的大小表示品牌在網路中的影響力大小，也就是「Betweenness Centrality（中介核心性），」學術的說法是「兩個非鄰接的成員間的相互作用依賴於網路中的其他成員，特別是位於兩成員之間路徑上的那些成員，他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用」。說人話就是，更大的影響力就意味著該品牌鏈接了更多的合作機會和資源，以及涉足更多的互聯網領域。

先看裡面影響力TOP10，依次是騰訊、微信、百度、QQ、阿里巴巴、淘寶、京東、小米、網易和新浪微博，「騰訊系」在10強里佔據了3個席位，實力強大，可見一斑。

再看由顏色區分出的6個簇群：

淡藍系：騰訊、微信、百度、QQ、網易、搜狐…

洋紅系：阿里巴巴、淘寶、京東、新浪微博、天貓…

深綠系：小米、多看、MIUI、天翼閱讀…

淺綠系：樂居、房天下

明黃系：人人貸、拍拍貸

黃橙系：汽車之家、易車網、易湃

上述的分類，大部分是好理解的，? 淺綠系（樂居、房天下）是做房產的，明黃系（人人貸、拍拍貸）是搞互聯網P2P金融的，而黃橙系（汽車之家、易車網、易湃）是互聯網汽車領域的品牌。

值得注意的是，深綠系的小米、多看、MIUI、天翼閱讀，以小米為中心MIUI是小米的產品，多看（閱讀）已經被小米收購，天翼閱讀一度是小米捆綁的閱讀軟體，然而，蝸牛遊戲就跟前幾個不同，有一篇文章的標題是這樣的：「蝸牛發布移動戰略，石海：不做小米第二」，它是小米在移動遊戲領域的對手…

此外，淡藍系（騰訊、微信、百度、QQ、網易、搜狐等）和洋紅系（阿里巴巴、淘寶、京東、新浪微博、天貓等）這兩個簇群中，品牌與品牌之間的關係就比較複雜了，子母公司、兄弟品牌、跨界合作、競對關係、跨界競爭、融資及兼并，上述情況，在這兩類簇群中或可兼而有之。

結語

在本文的文本挖掘部分，其實已經涉及到人工智慧/AI這塊的實際應用---關鍵詞提取、LDA主題模型、ATM模型屬於機器學習，情緒分析、詞向量、詞聚類和詞分類涉及到深度學習方面的知識，這些都是AI 在數據分析中的真實應用場景。

此外，本文是探索性質的數據分析乾貨文，不是數據分析報告，重在啟迪思路，授人以漁，得出具體的結論不是本文的目的，對結果的分析分散在各個部分，「文末結論控」不喜勿噴。

參考資料：

1.數據來源：虎嗅網主頁，2012.05-2017.11

2.蘇格蘭折耳喵，《數據運營|數據分析中，文本分析遠比數值型分析重要！（上）》

3.蘇格蘭折耳喵，《在運營中，為什麼文本分析遠比數值型分析重要？一個實際案例，五點分析（下）》

4.蘇格蘭折耳喵，《乾貨｜如何利用Social Listening從社會化媒體中「提煉」有價值的信息？》

5.蘇格蘭折耳喵，《乾貨｜作為一個合格的「增長黑客」，你還得重視外部數據的分析！》

6.蘇格蘭折耳喵，《以《大秦帝國之崛起》為例，來談大數據輿情分析和文本挖掘》

7.蘇格蘭折耳喵，《【乾貨】用大數據文本挖掘，來洞察「共享單車」的行業現狀及走勢》

8.Word2vec維基百科詞條，https://en.wikipedia.org/wiki/Word2vec

9.「工信部發2016年中國互聯網企業100強名單」

10.宗成慶，《自然語言理解：（06）詞法分析與詞性標註》，中科院

11.UnderstandingConvolutional Neural Networks for NLP

12.Yoon Kim,Convolutional Neural Networks for Sentence Classification

13. Hoffman, Blei, Bach. 2010. Online learning for LatentDirichlet Allocation

14.TomasMikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of WordRepresentations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

15.TomasMikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. DistributedRepresentations of Words and Phrases and their Compositionality. In Proceedingsof NIPS, 2013.