知乎探索(二)——封禁用戶是誰?

本文是知乎探索系列第二篇。

第一篇知乎探索(一)——聽說你也想做大V?

不知道你們有沒有過這樣的經歷,點開一個用戶的首頁,卻看到了如下一幕

此時,有兩種可能:

  1. 你打開了 @lxghost 的個人主頁!
  2. 你打開了一名封禁用戶的個人主頁!

今天,我們就聊一聊這第二種可能。


預警:真~多圖預警


好端端的賬號,說封就封?

封禁用戶通常有三種狀態:

  1. 個人主頁頂部顯示「該賬號已停用」。
  2. 個人主頁頂部顯示「該賬號已被永久禁言」。
  3. 如題圖顯示「被反作弊限制」,看不見個人主頁(其實是可以看見的)。

而一個用戶被封禁的原因也有很多,常見的是廣告不友善政治敏感非法其他(沒錯,其他也是一個原因)。

上一篇中提到的幾個封禁大V中,

鍾文鍾瑜孔鯉Negar Kordi叫我女王大人江暢是由於廣告

韓迪玄不救非氪不改命Kaiser(剛被封禁) 是由於政治敏感

王狗蛋變先生是由於「非法」。

其他人則是「其他原因」。

今天我們不聊大V為何被封禁,而是把目光聚焦在更容易被忽視的小人物上。不過相類似的,他們被封禁的原因大多也是由於「廣告」。

知乎一共有多少用戶被封禁呢?其實這個數據,只有知乎自己清楚。

知乎小管家最近的這條想法中提到,有77萬個賬號被封禁。以1億知乎用戶來算,這已經佔了快1%了。

我從年中開始注意到封禁用戶的存在,並斷斷續續進行了搜集。截止目前,我記錄了4.35萬個封禁用戶。那麼,不妨讓我們以小見大,從我搜集到的數據中一窺封禁用戶的特徵吧!


毫無懸念的基本特徵

先來看看基本特徵,即贊數,粉絲數,作品數。

x軸為收穫贊數,y軸為計數(log分割)

上面的直方圖中,超過20萬贊的大V已經被剔除了。可以看到絕大多數的用戶都位於最左側的bin(上圖每個bin為5000贊),即贊數小於5000。

其實絕大多數封禁用戶都只有不到100贊,我們不妨放大一下看看100贊以內的情況:

92%的用戶只有不到2個贊!

為了形成對比,我們不如來把「整個知乎」的數據拿來對比一下。我目前收集了大約235萬知乎用戶的基礎信息,將直方圖數據縮放到相同的水平,就得到了如下的圖:

紅色為封禁用戶,藏青色為縮放過後的知乎整體數據

可以看到,知乎整體的數據比較平滑。而封禁用戶中更多的是沒收到贊的用戶。(y軸取了對數,看起來距離很小,實際上數值相差了將近0.5倍啊!)

下面我們再來看看粉絲數:

不出意外的,封禁用戶的粉絲數也不多,90%只有不到5個粉絲,相比整體數據也是偏低。

作品數:

在作品數這一指標上,封禁用戶和知乎整體用戶之間的差距也很大,可以看到95%的封禁用戶產出了不到5篇文章/回答。而實際上,80%的封禁用戶根本就沒有任何回答與文章

上面說的都是廢話,有點經驗的讀者肯定都知道這些封禁用戶的特徵了——三零賬號為主,主要功能是點贊,朝生暮死,生命周期較短


取名也有學問?

在搜集封禁用戶的過程中,我曾依稀覺得封禁用戶的名字也有一些規律可循。

那好,直接上字元雲來看看,封禁用戶最愛取什麼名字吧!

可以看到,最常出現的名字竟然是「[已重置]」!當然,這個名字是不能自己修改得到的(我試過了),這是對異常名字的一種處理手段,例如右上角的「加155xxx」,理論上就該被重置。

更為詳細的頻次列表如下,大家可以看看有沒有和自己的名字重合。如果有的話,要不要考慮一下換個名字規避風險呢?

egin{array}{c|c} 	ext{名字} & 	ext{出現次數}\ hline [已重置] & 195\ 小小 & 77\ 啦啦啦 & 71\ 小可愛 & 58\ 哈哈 & 58\ 哈哈哈 & 44\ 	ext{林lala} & 36\ 老司機 & 31\ 風度翩翩 & 30\ 晴天 & 30\ end{array}

上表中出現了哈哈哈哈哈,有些許重複。所以我在python里拿jieba分了下詞。

可以看到,最常見的詞是「」,「」,「」,「」,「」。除去語氣詞外,「成熟」,「滄桑」,「青春」,「時光」的出現頻率也挺高的。似乎封禁用戶背後還有不少經歷可以挖掘啊!

除去名字,封禁用戶的頭像也值得統計一番。

被使用最多的是知乎的默認頭像,有8140名封禁用戶使用,其次是QQ空間的默認頭像,有466名封禁用戶使用。第三名是(疑似)微博的默認頭像,不過只有43人使用。

常見頭像前三甲

此外,封禁用戶最常見的50種頭像如下:

大家覺得,品味如何呢?


贊才是關鍵!

年中開始,知乎推廣實名制,需要綁定手機號才能進行回答、評論等操作,但「點贊」這一行為卻並不受限制。事實上,這些「小號」的最大價值,也就是拿來點(刷)贊

根據我的記錄,這4.35萬個封禁賬號產生了至少185萬次點贊,其中171.7萬次對回答點贊,13.5萬次對文章點贊。對回答的點贊涉及了約9.6萬個問題

其中,最頻繁被贊的是這個問題下的一眾回答2017年「雙十一」有哪些值得購買的商品?。一共有16589個贊落到這一問題下。

第二頻繁被贊的是這個問題怎麼挽回說不愛我的前男友?。有5188個贊。

第三頻繁被贊的是「雙十一」賣的東西真的是一年中最便宜的嗎?。有4881個贊。

不難看出,雙十一期間這些用戶迎來了一波狂歡,各色充斥著淘口令的回答下都有他們的身影。

上面的圖顯示了2017年「雙十一」有哪些值得購買的商品?這個問題下部分回答的部分點贊記錄的時間(不局限於封禁用戶)。可以看到,11月份點贊開始變得密集,尤其是雙十一前兩天,點贊的用戶們已經早早地開始熬夜了。

到底是封禁用戶帶熱了這個問題,還是這個問題的火熱吸引了封禁用戶呢?這是個值得思考的問題。

更具體的點贊分析,我留到下一期再講(數據還沒準備好),現在先來看看幾個封禁用戶的點贊特徵。

知乎用戶這位用戶是最近被封禁的,從9月中旬到12月中旬,他的點贊活動所示,每個圓點都是一個點贊:

在這3個月間,他一共送出了將近1400贊

可以看出,這位用戶在白天頻繁點贊,點贊時而連續時而稀疏,是位重度知乎使用者了。不過他的生活作息還是蠻規律的,0點前睡覺,差不多9點開始(點贊)工作。那些熬夜的讀者們是否覺得有一點點羞愧呢?(並沒有)

不過也有不少極端案例,就是從註冊到封禁,只點了一個贊的用戶,比如知乎用戶:

事實上,能存活三四個月,並送出上千贊的畢竟是少數。下圖展示了這些用戶累計送出贊數的分布直方圖。可以看到,一半以上的封禁用戶其實只點了不到20個贊,送出超過600贊的封禁用戶都很少見。這也說明知乎的反spam確實是有效果的,大家不必太過苛責。

我們不妨再來看一張點贊記錄圖,下圖展示的是某個回答收到各個點贊的時間。

曲線越平緩,點贊增長越快

可以看到,前後出現了兩波超級超級明顯的刷贊熱潮,時間都是在早上。大概是想趁機刷上白天的熱門吧。

這類分析我已經做過很多次了,有興趣的可以去看看我以前的回答

XZiar:如何看待Bilibili知乎賬號近來突然活躍,是因為AcFun的入駐嗎?

XZiar:如何評價動畫電影《煙花》?

XZiar:如何看待 B 站視頻揭秘盧本偉《絕地求生》開掛,被盧本偉寄律師函以「告上法庭」?(這個裡講到的回答已經被銷贊了)


題外話

貼幾張知乎的整體數據的直方圖,已將大V排除在外,專註於數值不高的用戶。看看你位於哪一檔?

10萬贊以內用戶分布,每一檔為2000贊

1萬關注以內用戶分布,每一檔為200粉

1000作品以內用戶分布,每一檔為20作品(回答+文章)


下期預告

為什麼摺疊我的回答,禁言我的賬號?!

什麼?說我涉嫌違規刷贊?

這都是競爭對手在向我潑黑水!

網路時代,水軍就是強有力的武器。他們的目標是什麼,又有誰「深受其害」呢?

下一期,帶你淺淺地觀望一下,那些被水軍(封禁用戶)侵蝕的事物。

推薦閱讀:

打造數據科學作品集:用數據講故事
最實用的帕累托分析模板
大數據分析作業-怎麼從導演及演員判斷電影值不值得看?
用大數據精準預測地震,每年將有1.3萬人免於受難!

TAG:数据分析 | 网页爬虫 |