數據告訴你,知乎Live哪家強?
前言
近年來,隨著網民版權意識與對優質內容付費意願的逐步興起,2016開啟了知識經濟的元年。分答、得到App、知乎Live是其中最具代表性的產品。
知識經濟是風口,於是大家一窩蜂地想來分一杯羹。以知乎Live為例,飽受詬病的是平台上大量低質量Live的產生,因此用戶很容易被「收智商稅」。
鑒於此,本文利用數據分析與機器學習的方法,來為知乎Live平台用戶提供作為甄別低質量Live的方法。
訓練機器學習演算法需要用到大量帶標記的數據,數據標籤即可認為是該Live的評分;利用爬蟲抓取知乎Live平台上已舉辦的Live信息,共計4433條,數據存儲至MongoDB。本文主要成果如下:
- 利用爬取的數據訓練機器學習回歸模型,使其具備對待舉辦Live的得分自動預測。
- 利用清洗後的數據建立演算法,計算知乎Live主講人排行榜。
- 多維數據可視化
數據可視化
可以看到,教育、職業、互聯網、金融與經濟、生活方式 所佔比重是最大的。
而 商業、法律、設計、體育 相關領域的Live數量則相對較低。
去除評分為0(即評分人數不足)的數據,我們得到了知乎Live的分數區間分布。
可以看到,絕大多數還是處在右側4分以上區域,一定程度上反映了聽眾對主講人的認可。
Live單價方面,大多數主講人將價格定在了 ¥9.99、¥19.99、¥19.00 ,整體價格處於較低的範圍,容易形成比較廣泛的受眾。
性別方面,男性以絕對的優勢領先,男女主講人比例約為7:3。
通過對不同領域的Live評分進行統計得到中位數,我們發現,
體育、醫學健康類的Live質量普遍較高;而商業相關的Live評分相對較低。
基於機器學習的Live得分自動預測
如果讀者對機器學習這一科技領域目前最熱的名詞有所了解的話呢,就會知道對Live的打分可以視為一個回歸問題,即對連續值的預測。
簡而言之呢,就是從之前所有的知乎Live歷史數據中進行學習,使演算法能夠對它在將來「看到」有舉辦的Live時,自動給出對該Live的預測得分。
再簡單一點講呢,就是這樣的:假設你將來在猶豫某場Live要不要參加?
你已知的有這些信息:
主講人基本信息(包括粉絲數、關注數、是否有黃V/藍V 認證?粉絲數里大V的數量、被知乎推薦收錄的答案數量、專欄數量、已發表文章數量、已發起Live數量及其評分、評分人數中正常用戶的數量等等);
演算法會給出對該Live最終可能得分的預測值,比如演算法預測出該場Live最終得分為4.12,該分數說明演算法認為該Live屬於高質量Live,那麼你就可以參加。
例子中,該真實Live的最終得分為4.2,我們的演算法預測值為4.12,誤差僅為0.08。
BTW,如果讀者對機器學習不感興趣,下面的這段描述可以暫且跳過吧~
我們利用pandas進行數據清洗(包括NAN值的填充處理、異常值的處理等等),歸一化,提取特徵。選擇Ridge Regression模型,在沒有進行細緻的特徵提取情況下,初步測試演算法MAE值為0.3,效果還算看得過去,但依然還有提升空間;後期我們會逐步完善特徵提取,並將最後 10-fold cross-validation 最佳結果訓練得到的模型發布出來供大家甄別低質量Live。
主講人排行榜
該部分主要介紹對已完結歷史Live數據的分析,從而給出主講人的排行榜單。考慮到知乎大V作為意見領袖的影響,以及可能的數據統計偏差。我們僅提取 評價人數>100人 作為統計樣本。(數據截止2017-10-29)
以上是 TOP 25的 優質主講人。
其中, @驚奇影像 榮登榜首; @數學建模老司機 榮獲優質主講人亞軍; @魅惑藍心 榮獲優質主講人探花。除了以上TOP 25以內的第一梯隊得分在4.9分以上的優質主講人,TOP 50以內的都是優質Live內容輸出者;他們排名如圖7所示。
圖8為代表性的低質量Live及其主講人,就不一一艾特了。
完整的排行榜單可以在這裡查看:
主講人排行榜
結語
知乎Live是個很好的平台,既可以讓優質內容創作者可以得到相應的回報,又可以讓初入某個領域的小白少走一些彎路。不管是作為某個領域的高手還是小白,誰都有剛入門時摸不著頭腦的時候,但恰恰是剛入門的小白最容易被「成功人士收智商稅」。因此本文的主要目的就是希望通過演算法、對所有知乎Live的歷史數據進行挖掘,能夠給讀者在甄別低質量Live的時候提供一些有用的信息。
另:關於演算法、源碼、數據、圖表,由於目前演算法還在逐步完善中,等調試出最佳結果後,過陣子會全部開放出來~
剛發現 @路人甲 也寫過一篇利用數據分析甄別Live質量的文章不交智商稅,如何判斷一場知乎live的質量?,大家可以去看看。
下一步
感謝知友 @張皓翔 的提醒與建議,因知乎Live平台自身已關閉對某些Live的顯示,因此本文所涉及到的數據可能存在遺漏,歡迎優質主講人提供滿足Live排行榜單和有力的證據,我們會在第一時間更新您的數據。
目前存在的不足:
因當前訓練回歸模型所用到的數據 label為「知乎Live平台上顯示的平均得分」,鑒於任何社交網路平台均存在著非常強的 意見領袖現象,比如某同學非常粉某位主講人,那麼即使該主講人的某場Live質量很低,但依然會獲取很高的評分。
此外,任何平台都存在著不同程度的「水軍」現象,因此下一步我們要做的就是採集更大量、更多維度的數據,對於Live的惡意刷分或同行惡意差評,我們的演算法會集成對水軍的自動識別。從而使得該榜單更加公平、公正、公開。
另:歡迎各路感興趣的小夥伴一起加入並維護!
推薦閱讀:
※鑽石價格的預測
※入門機器學習到底需要多少數學知識
※R語言實戰之簡單數據處理
※遠的數據分析之路
※Docker+IPython,搭建線上數據分析環境