知乎探索(二)——封禁用戶是誰?
本文是知乎探索系列第二篇。
第一篇知乎探索(一)——聽說你也想做大V?
不知道你們有沒有過這樣的經歷,點開一個用戶的首頁,卻看到了如下一幕
此時,有兩種可能:
- 你打開了 @lxghost 的個人主頁!
- 你打開了一名封禁用戶的個人主頁!
今天,我們就聊一聊這第二種可能。
預警:真~多圖預警
好端端的賬號,說封就封?
封禁用戶通常有三種狀態:
- 個人主頁頂部顯示「該賬號已停用」。
- 個人主頁頂部顯示「該賬號已被永久禁言」。
- 如題圖顯示「被反作弊限制」,看不見個人主頁(其實是可以看見的)。
而一個用戶被封禁的原因也有很多,常見的是廣告,不友善,政治敏感,非法,其他(沒錯,其他也是一個原因)。
上一篇中提到的幾個封禁大V中,
鍾文,鍾瑜,孔鯉,Negar Kordi,叫我女王大人,江暢是由於廣告。
韓迪,玄不救非氪不改命,Kaiser(剛被封禁) 是由於政治敏感。
王狗蛋,變先生是由於「非法」。
其他人則是「其他原因」。
今天我們不聊大V為何被封禁,而是把目光聚焦在更容易被忽視的小人物上。不過相類似的,他們被封禁的原因大多也是由於「廣告」。
知乎一共有多少用戶被封禁呢?其實這個數據,只有知乎自己清楚。
知乎小管家最近的這條想法中提到,有77萬個賬號被封禁。以1億知乎用戶來算,這已經佔了快1%了。
我從年中開始注意到封禁用戶的存在,並斷斷續續進行了搜集。截止目前,我記錄了4.35萬個封禁用戶。那麼,不妨讓我們以小見大,從我搜集到的數據中一窺封禁用戶的特徵吧!
毫無懸念的基本特徵
先來看看基本特徵,即贊數,粉絲數,作品數。
上面的直方圖中,超過20萬贊的大V已經被剔除了。可以看到絕大多數的用戶都位於最左側的bin(上圖每個bin為5000贊),即贊數小於5000。
其實絕大多數封禁用戶都只有不到100贊,我們不妨放大一下看看100贊以內的情況:
92%的用戶只有不到2個贊!
為了形成對比,我們不如來把「整個知乎」的數據拿來對比一下。我目前收集了大約235萬知乎用戶的基礎信息,將直方圖數據縮放到相同的水平,就得到了如下的圖:
可以看到,知乎整體的數據比較平滑。而封禁用戶中更多的是沒收到贊的用戶。(y軸取了對數,看起來距離很小,實際上數值相差了將近0.5倍啊!)
下面我們再來看看粉絲數:
不出意外的,封禁用戶的粉絲數也不多,90%只有不到5個粉絲,相比整體數據也是偏低。
作品數:
在作品數這一指標上,封禁用戶和知乎整體用戶之間的差距也很大,可以看到95%的封禁用戶產出了不到5篇文章/回答。而實際上,80%的封禁用戶根本就沒有任何回答與文章。
上面說的都是廢話,有點經驗的讀者肯定都知道這些封禁用戶的特徵了——三零賬號為主,主要功能是點贊,朝生暮死,生命周期較短。
取名也有學問?
在搜集封禁用戶的過程中,我曾依稀覺得封禁用戶的名字也有一些規律可循。
那好,直接上字元雲來看看,封禁用戶最愛取什麼名字吧!
可以看到,最常出現的名字竟然是「[已重置]」!當然,這個名字是不能自己修改得到的(我試過了),這是對異常名字的一種處理手段,例如右上角的「加155xxx」,理論上就該被重置。
更為詳細的頻次列表如下,大家可以看看有沒有和自己的名字重合。如果有的話,要不要考慮一下換個名字規避風險呢?
上表中出現了哈哈哈和哈哈,有些許重複。所以我在python里拿jieba分了下詞。
可以看到,最常見的詞是「的」,「我」,「你」,「小」,「啦」。除去語氣詞外,「成熟」,「滄桑」,「青春」,「時光」的出現頻率也挺高的。似乎封禁用戶背後還有不少經歷可以挖掘啊!
除去名字,封禁用戶的頭像也值得統計一番。
被使用最多的是知乎的默認頭像,有8140名封禁用戶使用,其次是QQ空間的默認頭像,有466名封禁用戶使用。第三名是(疑似)微博的默認頭像,不過只有43人使用。
此外,封禁用戶最常見的50種頭像如下:
大家覺得,品味如何呢?
贊才是關鍵!
年中開始,知乎推廣實名制,需要綁定手機號才能進行回答、評論等操作,但「點贊」這一行為卻並不受限制。事實上,這些「小號」的最大價值,也就是拿來點(刷)贊。
根據我的記錄,這4.35萬個封禁賬號產生了至少185萬次點贊,其中171.7萬次對回答點贊,13.5萬次對文章點贊。對回答的點贊涉及了約9.6萬個問題。
其中,最頻繁被贊的是這個問題下的一眾回答2017年「雙十一」有哪些值得購買的商品?。一共有16589個贊落到這一問題下。
第二頻繁被贊的是這個問題怎麼挽回說不愛我的前男友?。有5188個贊。
第三頻繁被贊的是「雙十一」賣的東西真的是一年中最便宜的嗎?。有4881個贊。
不難看出,雙十一期間這些用戶迎來了一波狂歡,各色充斥著淘口令的回答下都有他們的身影。
上面的圖顯示了2017年「雙十一」有哪些值得購買的商品?這個問題下部分回答的部分點贊記錄的時間(不局限於封禁用戶)。可以看到,11月份點贊開始變得密集,尤其是雙十一前兩天,點贊的用戶們已經早早地開始熬夜了。
到底是封禁用戶帶熱了這個問題,還是這個問題的火熱吸引了封禁用戶呢?這是個值得思考的問題。
更具體的點贊分析,我留到下一期再講(數據還沒準備好),現在先來看看幾個封禁用戶的點贊特徵。
知乎用戶這位用戶是最近被封禁的,從9月中旬到12月中旬,他的點贊活動所示,每個圓點都是一個點贊:
在這3個月間,他一共送出了將近1400贊。
可以看出,這位用戶在白天頻繁點贊,點贊時而連續時而稀疏,是位重度知乎使用者了。不過他的生活作息還是蠻規律的,0點前睡覺,差不多9點開始(點贊)工作。那些熬夜的讀者們是否覺得有一點點羞愧呢?(並沒有)
不過也有不少極端案例,就是從註冊到封禁,只點了一個贊的用戶,比如知乎用戶:
事實上,能存活三四個月,並送出上千贊的畢竟是少數。下圖展示了這些用戶累計送出贊數的分布直方圖。可以看到,一半以上的封禁用戶其實只點了不到20個贊,送出超過600贊的封禁用戶都很少見。這也說明知乎的反spam確實是有效果的,大家不必太過苛責。
我們不妨再來看一張點贊記錄圖,下圖展示的是某個回答收到各個點贊的時間。
可以看到,前後出現了兩波超級超級明顯的刷贊熱潮,時間都是在早上。大概是想趁機刷上白天的熱門吧。
這類分析我已經做過很多次了,有興趣的可以去看看我以前的回答
XZiar:如何看待Bilibili知乎賬號近來突然活躍,是因為AcFun的入駐嗎?
XZiar:如何評價動畫電影《煙花》?
XZiar:如何看待 B 站視頻揭秘盧本偉《絕地求生》開掛,被盧本偉寄律師函以「告上法庭」?(這個裡講到的回答已經被銷贊了)
題外話
貼幾張知乎的整體數據的直方圖,已將大V排除在外,專註於數值不高的用戶。看看你位於哪一檔?
下期預告
為什麼摺疊我的回答,禁言我的賬號?!
什麼?說我涉嫌違規刷贊?這都是競爭對手在向我潑黑水!
網路時代,水軍就是強有力的武器。他們的目標是什麼,又有誰「深受其害」呢?
下一期,帶你淺淺地觀望一下,那些被水軍(封禁用戶)侵蝕的事物。
推薦閱讀:
※打造數據科學作品集:用數據講故事
※最實用的帕累托分析模板
※大數據分析作業-怎麼從導演及演員判斷電影值不值得看?
※用大數據精準預測地震,每年將有1.3萬人免於受難!