知乎探索(一)——聽說你也想做大V?

本文是知乎探索系列第一篇。

在知乎,大V無疑是耀眼的星。

他們有成千上萬的「追隨者」,在各個用戶的首頁頻頻露臉。

他們出場自帶數十個贊,僅憑一己之力就能盤活一個冷門問題。

那麼,你是否曾有過當大V的念頭呢?

不管有沒有,不妨都先看看知乎頂端的大V,都有些什麼特徵吧?


誰才是大V

大V不是一個特定的人,而是泛指一個群體。即便如此,我們也要框定一個範圍才行。

通常我們判定一個人是否為大V,都是看他的關注人數,即粉絲數。可如果關注人數大於他收穫的贊呢?而事實上,這個情況是確實存在的。

例如帶三個表,有317017個關注者,贊數卻為205885。

例如李老鼠,有288403個關注者,贊數卻為217097。

再例如葛巾,有635151個關注者,贊數卻為218376。

產生這種情況的原因很多。例如作者刪除回答,或者將回答改為匿名,導致贊數不計入個人統計中;或者是大家習慣了微博上關注大V,在知乎上也先關注了一堆,卻沒有點贊交集。

如果要準確統計知乎上的大V,那就得考慮多個因素,例如最近的活躍度,在知乎的影響力,等等……而我選擇了偷懶的辦法,就是去看他們獲得的贊數。

畢竟,你的知乎首頁不會收到「xxx關注了xxx」,但卻會頻繁見到「xxx贊/收藏了xxx的回答/文章」。而「贊」,這個同時出現在作品和作者身上的元素,也的確適合作為衡量一個用戶影響力的重要因素。

粉絲數,雖然不能直接表達「認同」人數,但畢竟是大V傳播觀點的渠道的體現。粉絲越多,答案越能被人看到,理論上傳播得越快、越廣。(這是題外話了)

那麼,以多少贊作為分界線比較合適呢?

本人不才,收集到的數據有限,分數數據的能力有限,因此擅作主張把「20萬」定為大V的分界線。在我收集到的數據里,這樣的用戶一共有387個(實際不止),放在知乎1億用戶里,可以算得上是金字塔頂端的真大V了吧。


注意:以下分析只針對我收集到的數據,數據可能不全,可能不夠新,可能有遺漏,可能有偏向,可能不足以反映現實,還請見諒。

預警:多圖預警


簡單分析

在387個大V中,有16位是已經被停用或永久禁言的。按照贊數從小到大排列,他們依次是:

鍾瑜,劉焫鸚,江暢,叫我女王大人,鍾文,變先生,飛鳥冰河,孔鯉,王狗蛋,極樂,Negar Kordi,玄不救非氪不改命,韓迪,鍾瑜,一笑風雲過,張兆傑

他們被封禁都有各自的理由,大家可以自行查閱相關資料(才不是因為我懶得查呢)

值得一提的是,鍾瑜出現了兩次,這足以體現其對知乎的「熱愛」與民眾對他的「支持」了。

先看看贊數分布情況,獲得贊數最多的10位分別是:

begin{array}{c|c} text{名字} & text{贊數} hline 張佳瑋&4239989 text{Seasee Youl}&1908825 text{vczh}&1769546 馬前卒&1666982 鬼木知&1627516 唐缺&1593134 肥肥貓&1419141 朱炫&1379570 豆子&1371652 text{ze ran}&1360966 end{array}

可以看到,張佳瑋的贊數遙遙領先,比第8、9、10名的贊數加起來還多

作為參考,這387位大V的平均贊數為407272,即約40.7萬,而以上前十位的贊數都突破了100萬。詳細的分布直方圖如下。

x軸為贊數,y軸為人數(對數)

值得注意的是,為了方便觀察,y軸已經取了對數。即便如此,還是可以明顯看見張佳瑋孤零零地站在頂峰。而且即便在大V的世界裡,大家也是遵循著金字塔分布,越頂尖,越稀少

此處可以引用一篇兩年前的文章,彼時張佳瑋尚只有200萬贊,大家有興趣可以比較一下

知乎上得贊數最高的99個大V

而如果用傳統的粉絲數來衡量的話,排名前十的則是:

begin{array}{c|c} text{名字} & text{粉絲數} hline 張佳瑋&1485607 丁香醫生&859194 text{yolfilm}&777914 張亮&748565 李淼&677220 朱炫&676154 text{vczh}&641257 葛巾&635151 寺主人&622512 田吉順&598818 end{array}

可以看到,除了張佳瑋vczh依舊在排行榜上,其他人都被替換了。

作為參考,387位大V的平均粉絲數為147810,約15萬,中位數為95690,約9.5萬。值得一提的是,粉絲數最少的是念缺一,僅僅8424位關注者,卻獲得了211596個贊,算得上是四兩撥千斤了。

x軸為粉絲數,y軸為人數(對數)

粉絲數的分布直方圖更符合「階梯狀」,不過極差也更大。這兩種衡量方式孰優孰劣,就見仁見智了。

前面提到了,有些大V粉絲很少,贊卻很多。這就可以通過贊粉比,即贊數和粉絲數的比值來做比較。

begin{array}{c|c|c|c} text{名字} & text{粉絲數} & text{贊數} & text{贊粉比} hline 拘煦&9193&240443&26.15500925 念缺一&8424&211596&25.11823362 我是一隻小萌刀&10073&229231&22.75697409 text{M3小蘑菇}&12270&272178&22.18239609 白木天穹&13108&258944&19.75465365 拒絕黃賭毒&18367&360511&19.62819187 貓三娘子&14762&256001&17.34189134 我覺得咸粽子好吃&12954&220468&17.01929906 花村婦聯主席&17158&282401&16.45885301 夜寐太行&12711&207610&16.33309732 end{array}

可以看到,贊粉比最高的十位大V都是「陌生」的面孔。這或許說明,很多人是跟風關注了大V,卻沒有頻繁點贊吧。


勤能補拙(嗎)

關於如何成為大V,很多人會分為兩派。一派認為大V需要積極發文,多露面以提高曝光率;而另一派認為大V需要專註輸出高質量回答,用質量取勝。那麼,哪一種更靠譜呢?

大V的直接產出可以算作文章與回答的總數。通過衡量大V的作品數,不就可以知道答案了嘛!

先看看作品數最多的十位大V:

begin{array}{c|c|c|c} text{名字} & text{贊數} & text{作品數} & text{作品贊率} hline text{vczh}&1769546&17637&100.3314623 text{M3小蘑菇}&272178&11780&23.10509338 肛里拉出個電鋸&397210&8732&45.48900596 text{kun yu}&730186&8069&90.49275003 孟德爾&994642&6418&154.9769399 柔王丸&367365&5514&66.62404788 鍾文&307870&5344&57.61040419 溫酒&828501&4888&169.4969313 負二&221236&4358&50.76548876 叛逆者&418034&4337&96.38782569 end{array}

可以看到輪子哥是當之無愧的高產作者,產出17637個作品,並得到了177萬個贊。

再看看作品數最少的十位大V(倒序排列):

begin{array}{c|c|c|c} text{名字} & text{贊數} & text{作品數} & text{作品贊率} hline 白木天穹&258944&69&3752.811594 葛巾&218376&65&3359.630769 梁邊妖&415269&61&6807.688525 玲瓏邪僧&324853&55&5906.418182 王遠成&366155&48&7628.229167 特種作死狗&240293&44&5461.204545 text{大喵smallfruit}&228158&37&6166.432432 text{發條橘子667}&247488&35&7071.085714 十一點半&217236&31&7007.612903 張譯&247905&29&8548.448276 end{array}

可以看到作品數最少的大V是張譯。嗯,他的不少電影我都蠻喜歡的。

回到正題,想要知道作品數量和贊數有沒有一定關係,可以對其散點圖做擬合,圖如下(為了方便表示,把贊數和作品數都做了log):

x軸為作品數(對數),y軸為贊數(對數)

可以看出……什麼都看不出。

是的,贊數和作品數並沒有很強的關係(至少在大V的世界裡),所以我乾脆沒做曲線擬合(真的不是因為不會)。

如果真要得出什麼結論的話,可以看看這些散點的上界——也就是說,作品數越多,才越有可能得到更多的贊。作品數決定了贊數的上限,這一點還是挺符合常識的吧!

事實上,粉絲數與贊數也有類似的聯繫:

x軸為粉絲數(對數),y軸為贊數(對數)

所以,為了成為大V,大家可以先從多回答、多寫文章、多讓人關注入手。具體的內容的話,我看發發笑話段子就挺好的,刷個贊,引個流,反正功成名就後可以把以前的黑歷史匿名或刪除(手動斜眼)。

別笑,真的有人這麼做哦,畢竟「人民群眾喜歡的東西,你算老幾」,我不多做評論。


一些題外話

事實上我一開始就知道,單純從作品數量來分析是得不到結果的。相比之下,一個回答/文章所屬的「話題」、瞄準的「受眾」、內容的「水平」才是決定贊數的根本。

如果要對此做分析,就不可避免地需要各種數據,並對文章/回答的文本做分析。我比較懶,就不做啦(或許是我沒有這個能力呢),有興趣的讀者可以在這方面做做研究哦!


剛才說了這麼多,其實只是鋪墊。

一開始,我就說明了「贊」在知乎的重要性,同時也說明了粉絲數是傳播渠道的一個指標。如果兩者相碰撞,又會產生什麼火花呢?

沒錯,我想說的就是,大V和大V之間,又有多少點贊關係呢?

點贊之交甘若醴?

既然大V的範圍已經框定好了,大V之間的點贊關係就很方便獲取了,爬蟲爬一爬即可。

我比較懶(第N次聲明了),只爬取了大V們最近的一些點贊動態,時間基本局限於今年,甚至局限於下半年。此外還有少量數據遺漏。但總之,我把我搜集到的數據繪製成了一副圖(就是題圖)。

在此之前,先引入一個力導圖的概念。先看一段極客學院的解釋:

力導向圖(Force-Directed Graph),是繪圖的一種演算法。在二維或三維空間里配置節點,節點之間用線連接,稱為連線。各連線的長度幾乎相等,且儘可能不相交。節點和連線都被施加了力的作用,力是根據節點和連線的相對位置計算的。根據力的作用,來計算節點和連線的運動軌跡,並不斷降低它們的能量,最終達到一種能量很低的安定狀態。

按照我的理解,力導圖就是每個用戶作為一個點,他們之間的關係視作一根彈簧。用戶之間天然地相互排斥,他們之間的聯繫則把他們拴在一起。等到整個體系接近穩定的時候,就能得到一副描述相互關係的圖。

更為誇張、直白的描述是:從力導圖上,你可以看到誰和誰關係密切!

由於圖是幾天前繪製的,大V數量只顯示380個,相互間發生了21131次點贊。另外紅色的名字標註是人工標註的,所以有殘缺(圖上兩個「溫酒」,那是因為真的有兩個「溫酒」!)

話不多說,下面上圖。點開大圖會更清晰(不過知乎會壓圖)。看不清或者有興趣的可以到文末鏈接打開可交互的頁面觀察哦

上圖中,每個圓球就是一個大V,圓球大小(直徑)跟大V粉絲數的立方根相關(差距很小)。其中紅色圓球表明一個被封禁的賬號,藍色球是輪子哥,表明搜索由他開始。

每一條白線就是一個贊(圖上看不出方向),且白線越亮,表明贊數越多(白線透明度低,單獨幾個贊可能肉眼看不出)。

不難看出,圖中有這麼幾種常見的關係:

  • 單點發散

代表人物:vczh。這表明一個用戶大量對其他大V點贊或者被大量大V點贊(通常是前者)。位於右側藍點的輪子哥作為代表人物,很好地詮釋了「輪帶逛」的特色。

  • 孤零零的點

代表人物:沒多少連線的大V。這表明大V不經常給其他大V點贊或者不常被其他大V點贊(至少在我收集到的數據里)。

  • 鐵三角

代表人物:圖上比較直觀能看出一個個穩定的三角形。這表明這些大V相互之間互動較多,關係較為密切或者態度/立場/觀點相近。

大V有較高的關注數,其贊數也代表了大家對其觀點/作品的認可。因此,被大V點贊通常能使普通人得到不少關注(深有感觸)。

而大V給大V點贊,更多則是強化大V的影響力,順便也有擴大觀點影響範圍的效果。

因此,想成為大V的話,不妨看看自己和上圖中哪些大V比較接近,試著引起他們的注意力,獲得他們的贊,從而獲得流量。如果你「資質過人」,說不定能加入他們的family哦!

這裡還要再聲明一下,上面的力導圖並不能說明一切。此外,它還存在以下一些問題:

  1. 贊是單向的,圖裡確實雙向的。也就是說,小透明給大V點贊,會被拉向大V身邊;而大V給小透明點贊,則會把小透明拉向自己身邊。只有和周邊很多人建立起了聯繫,才能夠穩定住自己的位置。
  2. 不同人的贊,應當是有不同分量的。雖然我把用戶粉絲數作為了結點大小,但實際布局過程中可能並沒有考慮到這個。
  3. 圖只能反映點贊關係,反映不出內在的聯繫。

所以,還請理性看待上圖反映出的一些事實。


交互力導圖

力導圖是用vasturiano/3d-force-graph庫繪製的,d3做力導布局引擎,使用二維布局。

這麼做的好處是,只要有了數據,大家就能在網頁端帶交互地瀏覽這個力導圖。

想交互瀏覽的話,鏈接如下:

關係分析

需要webGL支持,用了一部分ES6/ES6+特性。

由於布局是本地跑的,每次都會有些許區別,對配置有一定要求,載入時間也會比較長。

操作介紹

PC端左鍵拖動是旋轉,右鍵拖動是平移,滾輪縮放。

移動端單指拖動是旋轉,雙指拖動是平移,雙指縮放。


下期預告

有這麼一群用戶,他們默默無聞地活躍在一些回答/答主身邊,不為人知。當你去點開他們的主頁,卻只發現一具空殼,一具屍體。

沒錯,他們就是封禁用戶。

下一期,帶你淺淺地探尋一下,知乎上封禁用戶的身影。


推薦閱讀:

第一講:數據分析起點(實踐意義和計劃)
Python數據分析及可視化實例之車輛MPG數據(21)
通過CRM系統能做什麼樣的深度分析呢?
轉型之路的思考和體會
20170420 NumPy基礎:數組和矢量計算-3

TAG:数据分析 | 网页爬虫 |