數據告訴你,知乎Live哪家強?

前言

近年來,隨著網民版權意識與對優質內容付費意願的逐步興起,2016開啟了知識經濟的元年。分答、得到App、知乎Live是其中最具代表性的產品。

知識經濟是風口,於是大家一窩蜂地想來分一杯羹。以知乎Live為例,飽受詬病的是平台上大量低質量Live的產生,因此用戶很容易被「收智商稅」。

鑒於此,本文利用數據分析機器學習的方法,來為知乎Live平台用戶提供作為甄別低質量Live的方法。

訓練機器學習演算法需要用到大量帶標記的數據,數據標籤即可認為是該Live的評分;利用爬蟲抓取知乎Live平台上已舉辦的Live信息,共計4433條,數據存儲至MongoDB。本文主要成果如下:

  • 利用爬取的數據訓練機器學習回歸模型,使其具備對待舉辦Live的得分自動預測
  • 利用清洗後的數據建立演算法,計算知乎Live主講人排行榜
  • 多維數據可視化

數據可視化

圖1:Live領域標籤

可以看到,教育、職業、互聯網、金融與經濟、生活方式 所佔比重是最大的。

商業、法律、設計、體育 相關領域的Live數量則相對較低。

圖2:Live評分分布

去除評分為0(即評分人數不足)的數據,我們得到了知乎Live的分數區間分布。

可以看到,絕大多數還是處在右側4分以上區域,一定程度上反映了聽眾對主講人的認可。

圖3:Live價格分布

Live單價方面,大多數主講人將價格定在了 ¥9.99、¥19.99、¥19.00 ,整體價格處於較低的範圍,容易形成比較廣泛的受眾。

圖4:主講人性別比例

性別方面,男性以絕對的優勢領先,男女主講人比例約為7:3

圖5:不同領域Live得分中位數

通過對不同領域的Live評分進行統計得到中位數,我們發現,

體育、醫學健康類的Live質量普遍較高;而商業相關的Live評分相對較低


基於機器學習的Live得分自動預測

如果讀者對機器學習這一科技領域目前最熱的名詞有所了解的話呢,就會知道對Live的打分可以視為一個回歸問題,即對連續值的預測

簡而言之呢,就是從之前所有的知乎Live歷史數據中進行學習,使演算法能夠對它在將來「看到」有舉辦的Live時,自動給出對該Live的預測得分


再簡單一點講呢,就是這樣的:假設你將來在猶豫某場Live要不要參加

你已知的有這些信息:

主講人基本信息(包括粉絲數、關注數、是否有黃V/藍V 認證?粉絲數里大V的數量、被知乎推薦收錄的答案數量、專欄數量、已發表文章數量、已發起Live數量及其評分、評分人數中正常用戶的數量等等);

演算法會給出對該Live最終可能得分的預測值,比如演算法預測出該場Live最終得分為4.12,該分數說明演算法認為該Live屬於高質量Live,那麼你就可以參加

例子中,該真實Live的最終得分為4.2,我們的演算法預測值為4.12,誤差僅為0.08。


BTW,如果讀者對機器學習不感興趣,下面的這段描述可以暫且跳過吧~

我們利用pandas進行數據清洗(包括NAN值的填充處理、異常值的處理等等),歸一化,提取特徵。選擇Ridge Regression模型,在沒有進行細緻的特徵提取情況下,初步測試演算法MAE值為0.3,效果還算看得過去,但依然還有提升空間;後期我們會逐步完善特徵提取,並將最後 10-fold cross-validation 最佳結果訓練得到的模型發布出來供大家甄別低質量Live。


主講人排行榜

該部分主要介紹對已完結歷史Live數據的分析,從而給出主講人的排行榜單。考慮到知乎大V作為意見領袖的影響,以及可能的數據統計偏差。我們僅提取 評價人數>100人 作為統計樣本。(數據截止2017-10-29)

圖6:TOP 25優質主講人及其Live

以上是 TOP 25的 優質主講人。

其中, @驚奇影像 榮登榜首; @數學建模老司機 榮獲優質主講人亞軍; @魅惑藍心 榮獲優質主講人探花

圖7:TOP 50優質主講人及其Live

除了以上TOP 25以內的第一梯隊得分在4.9分以上的優質主講人,TOP 50以內的都是優質Live內容輸出者;他們排名如圖7所示。

圖8:低質量Live

圖8為代表性的低質量Live及其主講人,就不一一艾特了。

完整的排行榜單可以在這裡查看:

主講人排行榜


結語

知乎Live是個很好的平台,既可以讓優質內容創作者可以得到相應的回報,又可以讓初入某個領域的小白少走一些彎路。不管是作為某個領域的高手還是小白,誰都有剛入門時摸不著頭腦的時候,但恰恰是剛入門的小白最容易被「成功人士收智商稅」。因此本文的主要目的就是希望通過演算法、對所有知乎Live的歷史數據進行挖掘,能夠給讀者在甄別低質量Live的時候提供一些有用的信息。

另:關於演算法、源碼、數據、圖表,由於目前演算法還在逐步完善中,等調試出最佳結果後,過陣子會全部開放出來~

剛發現 @路人甲 也寫過一篇利用數據分析甄別Live質量的文章不交智商稅,如何判斷一場知乎live的質量?,大家可以去看看。

下一步

感謝知友 @張皓翔 的提醒與建議,因知乎Live平台自身已關閉對某些Live的顯示,因此本文所涉及到的數據可能存在遺漏,歡迎優質主講人提供滿足Live排行榜單有力的證據,我們會在第一時間更新您的數據。

目前存在的不足:

因當前訓練回歸模型所用到的數據 label為「知乎Live平台上顯示的平均得分」,鑒於任何社交網路平台均存在著非常強的 意見領袖現象,比如某同學非常粉某位主講人,那麼即使該主講人的某場Live質量很低,但依然會獲取很高的評分。

此外,任何平台都存在著不同程度的「水軍」現象,因此下一步我們要做的就是採集更大量、更多維度的數據,對於Live的惡意刷分或同行惡意差評,我們的演算法會集成對水軍的自動識別。從而使得該榜單更加公平、公正、公開。

另:歡迎各路感興趣的小夥伴一起加入並維護!

color{red}{確定}color{orange}{不點個贊}color{blue}{再走嗎}color{green}{哈哈哈}


推薦閱讀:

鑽石價格的預測
入門機器學習到底需要多少數學知識
R語言實戰之簡單數據處理
遠的數據分析之路
Docker+IPython,搭建線上數據分析環境

TAG:知乎Live | 数据分析 | 机器学习 |