另一版的「知乎答案的時間段分布」

其實製作出這張圖有些天了,但覺得信息量太少不值得發一篇文章。然而今天看到@丁堯 寫的這篇《知乎答案的時間段分布》,覺得這數據分析的入手點不對啊。

丁堯的punchcard很有趣,我也在他這篇中多學了一招,但時間分佈分析不應該這麼做啊。所以心癢癢的,覺得還是把自己分析圖貼出來吧。

這是我做的知乎答案時間分佈分析:

可以看出來以下幾點:

  1. 夜貓子很多,5點到6點才是所有人都睡覺的時間;

  2. 無論工作日還是週末,大家都是12點一刻吃午飯;

  3. 週末吃晚飯的時間比工作日早半小時;

  4. 週末晚上11點半是大家刷網的最高峰。

(該趨勢圖基於2640萬知乎答案發佈時間統計而成。因為數據量足夠多了,所以可以細分到了分鐘來畫這趨勢圖。)

∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~

追加:按評論區@Yiqin Fu的建議,以答案發佈時間排出各時間段答案平均贊同數,以檢驗是否存在 「發布時間和贊數的相關」。

很意外,如圖所示,不同時間段還真有所不同。5am~6am是一天活動量的最低谷,一共有16萬篇答案發佈在這一小時的時間段內,雖然是最冷清的時刻,然而這時間段所發佈的答案的平均贊同數卻是全天中最高的,比全天的平均值要高+40%。

也許好的作家都是夜貓子?難道智商和晚睡時間成正比?

∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~

追加二:思考了一下,覺得之所以上面那張圖出現答案平均贊同數和所屬時段活動量成反比,只是因為白天時段大眾比較活躍,大家比較隨意地寫出的水答案比較多,所以把答案平均贊同數拉低了。

我試著調整了一下,只統計「關注者」(即粉絲)在一萬以上的大V的答案平均贊同數分佈。共計有2126位用戶「關注者」數大於一萬,他們的答案平均贊同數分佈如下:

最高點出現在半夜2點,最低點出現在早上9點。

看來的確是半夜發佈的文章的質量最高,看來智商真的和晚睡時間成正比了……

∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~

追加三:按評論區@林楓提出的疑問 「那答案長度會隨時間變化嗎?」,排出按發佈時間分佈的答案平均長度。可以看到,依然是半夜的答案長度相對較長。

∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~*☆·∴~

追加四:另外,我也在疑惑是否存在「答案越長贊同數就越高」的現象,所以做了一個兩者的相關關係圖,從圖中來看,該現象的確存在:(圖為對數刻度)

從圖中我們可以觀察到如下幾個特點:

  1. 總體而言的確是答案越長贊同數越高
  2. 大概從100字到2000字這個區間,贊同數非常明顯地隨著答案長度增加。
  3. 3000字以上,答案長度的增長開始對贊同數產生負面效果。

所以從這分佈圖來看,最佳的答案長度似乎應是2000字左右。


推薦閱讀:

Gartner 2016年商業智能與分析平台魔力象限
數據可視化基礎——數據模型
R語言可視化學習筆記之ggpubr包
R-ggridges包的改進
仿經濟學人——矩陣氣泡圖

TAG:爬虫计算机网络 | 数据可视化 |