第一次民間版知乎用戶分析報告

(2015.1.19消息:民間版知乎分析報告第二期已經出爐,請看完這一篇的讀者移步繼續閱讀)

  • 起因

對「看知乎」了解稍為深入的人都知道,每天推薦的答案全部來自我監控的用戶資料庫。而這個數字在年初是1萬左右,到現在也沒超過3萬(雖然每天都在增加)。

有時候會想,我有沒有可能是井底之蛙?知乎用戶究竟是緊密圍繞著一個核心團體還是聚集成許多互不來往的孤島呢?如果是後者的話,難道我真的遺漏了大量值得關注的用戶,只因為他們屬於另一個群體嗎?

以及,知乎到底有多少人?年初400萬,5月600萬,現在有700萬還是800萬?

他們中的大多數都活躍嗎?專業嗎?受歡迎嗎?

他們都關注了誰?被誰關注?

最近常被拉出來聲討的三零用戶到底有多少人?佔多大比例?

帶著這些疑問,我修改了一下爬蟲演算法,以儘可能大的範圍來搜集用戶,以及他們之間互相關注的關係。

以下就是本次調查分析的結果了。

  • 概況

數據收集方法:以「看知乎」網站2014年8月20日監控到的28,810個用戶作為種子,遍歷他們的關注者列表;再將第一次收集到的用戶關注者列表進行二次遍歷,然後將全部用戶以及他們的關聯關係匯總起來。

執行這個工程的時間跨度是8月21~24日,由於時間導致的數據誤差在可承受範圍內,不影響結果的合理性。

收集到的總用戶數是3,507,426人。

嗯?三百五十萬?是不是比預計的少了一半?

沒錯,但剩餘的另一半基本可確認為是零提問零回答零關注的三零用戶,以及只關注對方的殭屍粉小團體等等,其中絕大部分賬號應該都是不活躍的、也不參與提問和回答的。

考慮到知乎的規模和用戶群的凝聚性,這樣的推測結果很合理。剩餘的幾百萬賬號里基本不可能存在一個不與外界交流的、有價值用戶的集合了。

暫且忽略掉他們,假設知乎的全體用戶即是這3,507,426人,下面所有分析也都在此範圍內進行。

一些數字:

他們提出了1,381,317個問題;

撰寫了5,065,386個答案;

發表了21,098篇專欄文章;

獲得了41,856,875個贊同;

被關注51,934,080人次。

(不包含匿名行為)

  • 回答者

一般情況下,某個用戶在知乎從零起步的過程應該是這樣的:

    • 回答問題;
    • 因為答案的質量優秀而獲得贊同;
    • 引發別人的興趣,進而關注自己;

以上三個步驟循環或交錯進行。

這就涉及到三個重要指標:回答數、贊同數、被關注數。

我們先講前兩者,關注的問題放在後面幾節中進行。

知乎的作者和讀者關係以及傳播路徑大體是這種樣子:

頂端是信息製造者;之下是有賬號、可交互的讀者,能通過贊同、反對、評論等方式對答案進行影響並傳播;再下面則是純粹的讀者了。

那麼,在金字塔頂端的回答者佔到知乎用戶的多少呢?這些回答者中有多少人得到了贊同呢?以及,又有多少人因此而被人關注了呢?

下面的數字可能會令你略有些意外:

也就是說,知乎中80%多的人註冊後完全沒有寫過任何一個答案;

而且,寫過答案的人里,還有一半從來沒得到過贊同、三分之一左右沒有人關注;

換言之,被別人點過哪怕一個贊同的用戶,也已經在整個知乎排到了前8.77%內。

(最高紀錄保持者是位寫了340個答案卻無人贊同的知友——沒辦法,答案太水了)

對被贊同過的307,430人還可以再細分一下:

經常看到有人在答案上面更新「哇,居然有好幾百個贊了」,說明大家覺得幾百上千個贊同還是挺有面子的事。事實也確是如此,超過1000贊同的人只佔1.86%——而且還不是所有人的1.86%,而是至少有一個贊同的人里的。

如果放到全體用戶中,超過1000贊同人的只佔0.1633%,也就是不到千分之二。

  • 贊同

我們時常在話題精華和熱門推薦中看到動輒數千票的答案,但其中許多只是偶然現象。一般來說,只有一兩個高票答案的用戶在知乎很可能會曇花一現。既不能持續引發讀者的興趣,也不能轉化為關注數。

下面就把全體用戶的最高票答案和整體贊同數拿出來計算一下,除了最高的之外,我們還按由高到低的順序取出前5及前10的答案做對比。

(如果回答數不足5或10,那有幾個就拿幾個)

解釋一下。

最下面的「全部」一行,也就是圖表中的最右列,指的是全體知乎用戶的最高票答案在所有贊同中所佔的比例。

平均來說,單個答案票數佔了三分之一,而前10個答案的票數就有近七成了;

前幾行則是贊同數在某個範圍內的所有用戶所佔的比例。可以看出,越是得到贊同較多的用戶,越不會依靠單獨一個或幾個答案就被人重視,而是擁有更多熱門答案。

不過另有個有趣的現象,即贊同數在10000以下的所有用戶中,最高票答案所佔的比例平均都在45~50%之間,超過10000後則急劇縮減。

這並不難解釋:知乎贊同破萬的答案僅有50多個,並不常見,而絕大多數高票答案位於百字頭或千字頭範圍內,因此有相當一部分用戶會依靠單個答案的贊同而跨入上一級門檻,如果刪掉它,就會掉回下一數量級里去。

當你寫出第一個受歡迎的答案時,無論是有乾貨還是抖機靈,都沒法只靠它走上人生巔峰。只有堅持不斷地在自己擅長的領域輸出信息才能得到更多人的認可

而關注數顯然是代表了更高的認可層級。

如果說贊同數是軍功章,代表過去的成就,那關注數就是軍銜,代表日後的影響力。

下面的圖表解釋得更明白:

它表達的就是:

如果只有單個高票答案出彩,其餘答案則反響平平,那麼是不會得到很多關注的;

反之,如果某人有幾十上百個答案都很受歡迎,在一個或多個領域樹立起名聲,那受關注的幾率會直線上漲,甚至遠超過贊同數。

接下來會詳細分析「關注」這件事。

  • 關注者

對用戶而言,「被關注人數」,或者說粉絲數才是最重要的指標,因為這代表了他回答問題或贊同答案時的直接傳播範圍。

有時候我們會借用微博的稱謂,把粉絲上萬的人稱為「大V」(儘管知乎沒有認證體系)或者叫「大牛」,以及那些幾千個粉絲的中牛小牛們。

那麼,這些大中小牛在知乎的幾百萬用戶中又佔多少呢?

直覺來說可能不少,畢竟我們每個人都關注了幾個感興趣的大牛嘛,每天時間線上推送的也常常是他們的答案,而且重複。

但直覺並不那麼可靠。統計結果如下:

看圖可知,整個知乎,有近70%是完全沒有被人關注過的小透明;

超過96%的人粉絲少於10人;

而粉絲超過1000人的, 只佔到了萬分之九。

換句話說,99.9%的人影響力是極為有限的,至於有限到什麼程度,後文有詳述。

順便補充一下,零關注、零提問、零回答的「三零用戶」共2,092,271人,佔全體用戶的59.65%

  • 影響力

對於普通用戶而言,首頁時間線是獲取信息的最大渠道,肯進入發現頻道或話題中主動尋找新問題和答案的已經是少數了。

那麼,佔據他們時間線的是哪些人所推送的信息呢?

也就是說,知乎用戶樂於關注哪些人呢?

如果一個網站的「社交性」較強,那麼大家會更多地關注自己的熟人朋友;但如果「媒體性」較強的話,大家則會更專註於那些名人、大號、專業人士。

微博是這兩者的結合,因為上面很常見的行為是既關注一群朋友,又關注幾個大V。

前面也說過,知乎上大多數人的粉絲很少,那麼他們更樂於互相關注呢?還是儘可能去關注大牛們呢?接下來我們就要分析這點。

首先把所有用戶的關注行為匯總起來,看看他們更樂於關注什麼人:

這張圖可能不是太好理解。解釋一下,如果你關注了50個人,則發生了50次「關注行為」,如果關注的是個只有十幾粉絲的普通人,則會累加在1~100這個區間內,而關注的是一個幾十萬粉絲的名人時,就會累加在10000以上的區間內。

對全部51,934,080次「關注行為」的匯總結果就是上面這張圖了。

與前一節的數據對比,就可以看出知乎用戶的關注是何等地集中:

粉絲達到100的人數僅佔全部用戶的不到1%,卻吸引了85%的注意力;

粉絲超過10000的大牛們僅有700多人,但當知乎用戶每點下10次「關注」時,就有7次落在這個小群體上。

再換個角度,可能會更明顯些。

我們要把每個知乎用戶所有關注的人中,粉絲大於100的、1000的和10000的人所佔的比例都計算出來,稍作簡化,就是下面的三幅圖了:

初看似乎更不容易理解,在此解釋一下:

以第一幅圖為例,它說明有77%的知乎用戶只關注了粉絲100以上的人,而對沒什麼名氣的普通人一概置之不理;還有19%雖然也關注了幾個普通人,但超過一半仍然是大中小牛們;只有4%例外。

再看後兩幅,就更清楚了。

65%的人只關注粉絲上千的3000多位「中牛」;

近一半的人把所有目光完全限定在粉絲過萬的729位「大牛」之中。

現在你應該能感到知乎用戶的「受眾」身份是多麼明顯了:他們絕大多數都只盯著那些牛人們看,時間線上鋪滿他們的答案和推薦。

或者說,它的「社交性」遠遠遜於「媒體性」,儘管許多人最近開始說知乎是個社交網站,抱怨有效信息被稀釋、灌水的人也越來越多。但對絕大多數人而言,來到這裡還是為了閱讀與傾聽,而不是為了發表自己的看法的。

  • 關聯度

上一節的結論彷彿在說知乎無社交,是否真的如此呢?

在全部51,934,080次關注行為中,僅有1,291,626次是雙向的,也就是不到2.5%

換言之社交媒體上常見的「回粉」在這裡基本行不通,因為你關注一個人時只有1.25%的概率得到一個回粉。考慮到知乎的媒體性和眼球集中在少數大牛的現狀,並且幾十萬粉絲的大牛們無法逐個回粉,確實顯得社交性不足。

但並不代表知乎就不存在社交。

如果按照粉絲數劃分人群,並將每個人關注別人時對方也關注了你的情況全都整理出來,得出下面的結果:

結論有點殘酷:人人都愛和大牛做朋友,所以他們關注人時得到回粉的幾率也相當高;反之。當你沒啥名氣時則回應者寥寥。

有人可能會質疑,前面說整體的雙向關注率只有2.5%,怎麼這裡最低的一檔也有6.01%呢?是不是統計出錯了?

不是的,因為佔總人數70%的2,425,064位零粉絲的小透明所做出的23,125,516次關注行為,完全沒有得到回應,即回粉率為零,這才拉低了整體水平。

這個結論似乎更殘酷了,還是談點別的吧。

前面一直在說所有人都在關注大牛,那麼,把觀察範圍僅限於「牛圈」中時,他們互相之間的關係又是怎樣的呢?

我們仍然以粉絲數100、1000和10000為分界點,分別將他們的數據整理成表格:

解釋一下裡面的名詞。

人數:屬於這個範圍的人數,注意,粉絲100以上同時也包含了粉絲1000以上的人數,這點和之前的許多圖表不同;

關注次數:這個範圍內任何一人關注了另一人,則算作一次關注,互粉則算兩次;

理論最大值:假設這些人中的任意兩個都互粉,算出來的理論最大關注次數;

關注率:關注次數/理論最大值,越高則代表大家的關係越近;

平均關注人數:關注次數/人數,即平均每個人關注了多少圈子內的別人;

平均路徑長度:大家都知道六度分隔理論吧,指的是某人平均只需經過六個人就能聯繫到世界上的任意一個人,那麼路徑長度就是7了。

當然,六度的範圍已經很大了,一般來說,圈子越小、聯繫越緊,這個路徑長度就會越短。

計算公式是:n=frac{log(N)}{log(W)} ,其中n為路徑長度,N為人數,W為每人的平均關注數。

假設關注次數達到理論最大值,則路徑長度為1,即每個人只需要一步即可聯繫到任意的另一個人。

而知乎粉絲上萬的大牛們路徑長度僅為1.5,這是什麼概念?平均來講,兩個大牛要麼直接認識,要麼僅僅通過一個中間人就能認識;

就算是粉絲超過100的接近兩萬人里,平均也只需要經過一個中間人就認識了!

看到這裡,恐怕大家對知乎的人際網是如何緊密有個認識了吧。

順便一提,全體知乎用戶的路徑長度是5.65,比六度分隔略低一些。

如果還有興趣,本文後附了個有個趣味小程序,是關於大牛互相關注的,動動滑鼠就知道這幫人到底多熟了。

  • 粉絲質量

以前@chenqin提過一個二級關注的概念,就是「粉絲的粉絲」到底有多少人。它能夠表示出一個知乎用戶到底是常被大牛關注還是常被三零用戶關注,換句話說就是某個人的粉絲平均質量有多高。

看過前面幾節的分析之後,大概也能推測出統計趨勢了:大牛們的粉絲里,與自己同級別的人數量不少,但相對來說,絕大多數都是三零用戶。

實際是這樣嗎?我們整理出了下面的圖表:

圖中每根柱子代表了粉絲數位於某區間段內的用戶群,而不同的顏色則表示他們的「粉絲的粉絲」數量分布情況。

與預計相符的趨勢當然就是大牛們的粉絲里三零用戶(橙色)佔了絕大多數,而相反地,越是受人關注較少的,本人和粉絲所在的群體越相符。

比如某人只有不到100個粉時,關注他的有70%也在這個區間內(青色)。

不過,數量最小的群體擁有的能量卻很大。下面就是將粉絲群體再按照他們粉絲數量匯總的情況:

這回形勢倒轉了,三零用戶們的佔比完全是零,而80%的貢獻度來源於10000以上的大牛們。

不太容易理解的可能就是最右一列為何藍色部分佔比會變小,其實原因就是「受大牛關注的普通用戶」這個人群太少了而已,如果減去那些知乎早期註冊但很久不活躍的人,恐怕這部分還會更低呢。

對二級關注的分析,在統計學上可能意義並不大。因為知乎的關注現狀是大量的純讀者集中關注少數大牛,恐怕並不容易在其中找出誰的粉絲質量更高。當然,我倒是發現了它的另一種用法,就是用來找殭屍粉和殭屍點贊……

  • 總結

每一段正文都是圍繞著數據來講的,很少談到這對知乎代表了什麼。

如果最後一定需要總結的話,其實也很簡單:

知乎的用戶數量不少,但貢獻和關注度的差距絕對不是80-20原則能形容的,簡直是百里挑一,甚至萬里挑一。

而且用戶金字塔的尖端還結成了一個十分緊密的小圈子。

這個小圈子藉助知乎社區和媒體平台的放大效應,擁有了不亞於大中型互聯網媒體的影響力。然而無論是圈子成員,還是身為管理者的知乎團隊,對現狀的認識都有所不足。對一些隨著影響力而來的必然狀況應對無措,以至於造成了社區氛圍的不和諧。

了解問題是解決問題的第一步。如果只用自己身邊的情況來判讀最近的某些事件,會發生許多誤解。多少把握一些知乎整體狀況的話,或許能有所改觀吧。

  • 附言

這次小統計根本算不上什麼「分析報告」,標題是唬人的。缺了許多數據,也少了深入挖掘,只能算是收集一些表層信息並且做了簡單解讀而已。

最大的遺憾當然是數據太少,也沒有直接的渠道,更缺乏拿到更有用的數據的能力。其實我很想要答案下各個贊同的點擊時間,還有位置(比如是首頁還是內頁)之類,能夠分析出很多與傳播有關的信息。但就算能拿到,區區一台個人電腦都未必有能力裝下並查詢……

說到底,我只是想通過真實的數據來為大家展現知乎的「另一面」,而不是像最近的許多人那樣,單憑自己直接觀察到的一點情況,就認為整個網站如何如何。或許有人靠直覺也能把贊同、關注的分布情況猜得分毫不差,那確實夠了不起的。但隨著數據的進一步完善,總會有意料之外的時候。

雖然只收集了一些最簡單的關注關係,但我覺得裡面還足以挖掘出更有價值的信息。恕我愚鈍,如果有人能稍作提醒的話,我可以嘗試再挖挖它的潛力,看還能整理出什麼東西來。謝謝。

最後給大家一個有意思的,知乎粉絲Top200大V們的互相關注情況:

kanzhihu.com/zhihufile/

原本想做成網狀關係圖,誰知這幫人的關係實在太過親密,幾乎每個人都關注了幾十上百個,不管怎麼連都只能糊成一片,最後放棄了,改用圓形圖。

只要滑鼠移到任何一個人名字上就會顯示出他關注和被關注的人。

藍線是關注;

紅線是被關注;

兩條重疊在一起就變成了深褐色,代表兩人互相關注;

從線條多寡和顏色能看出個性。

這是後宮遍地的黃繼新:

這是逢粉必回的梁邊妖:

這是朋友很少的羅永浩(看左下角有條褐線):

也有人這樣默默盯著大家:

字體有點小,如果看不清而屏幕又夠大的話,按住Ctrl向上滾動滑鼠滾輪就行了;

另外,如果找不到自己想看的人,那就按Ctrl+F搜索。


推薦閱讀:

為什麼北方愛吃鹹的,南方愛吃甜的?「南北擂台」等你來戰!
知乎上精彩的原創詩句有那些?
提起ABA這種格式,你能想到什麼?
原創的答案被判定為「不規範轉載,知乎如何判斷一個答案是否為原創?
人人都能靠自媒體發家?別逗了……

TAG:知乎 | 数据分析 |