論本土48G的粉絲特徵 數量、結構與流動性(by 高階無窮小)
簡直是論文,一愣一愣的
無窮小被永封了,zhanzhihen這個是我的貼吧id,受他委託幫他發的,幸好最後沒被永封。
這玩意大概年初的時候他就開始做了,爬了2000w左右的數據,在sql server上跑的,中間崩了好幾次,反正蠻蛋疼的,所幸最後還是跑出來了。
數據真實性已經是沒啥問題的,不過實際上某些結論其實蠻有意思的。
比如為什麼會覺得婷鞠是第一cp,很簡單的原因,推小鞠的人一般不反感阿黃,所以有不少加推的,這樣就很不意外的得出婷鞠gay是大勢的情況。當然如果你要得到更準確的理由,就應該去爬取超話的數據,甚至爬取每個粉絲的微博,做情感分析和文本分析的工作了,但是工作量實在太大。
數據角度來說,基本可以看出,恩隊起飛是小鞠四千年的流量,國美依然是至今為止你河除了四千年外最大的吸粉渠道。
知名cp基本全面flop,某個角度來看,你河也是越來越不如從前了。分團吹的左佳,蛋殼,從數據角度來看,依然是非常弱小。
死忠粉+崇拜粉,如果能超過120,十拿九穩進圈,甚至能進32。數量超50,有豪配合就能沖沖圈內。再不好好想想怎麼吸粉和固粉,你河粉絲怕是真的越來越不夠用了。
至於技術問題,其實就是簡單分析,演算法上也沒有特別多的複雜度,甚至從大家角度來看,只是個粗糙的分析而已。不過裡面還是有很多信息可以挖的,我們其實還想勸他挖挖具體細節,做做推薦方面的工作,看看能不能投篇kdd或者sigir的short paper來著,不過具體也看他後續的想法吧,他累死累活佔用了十個月的業餘時間,也該好好給自己放放假了。
最後,擼推永不狗帶。
很多人都說cp粉統計那個問題很大。我覺得這部分並不是傳統意義上的cp粉,其實這個分析完全依靠微博轉贊評,他說的cp粉其實更像是對某幾個成員有好感起碼沒惡意的粉絲,就像我只吃一個cp但是我還是會給卡、黃、朵、鞠等轉贊評,也樂於看到她們互動,數據上可能就像是我站卡朵、婷鞠。我認為這個cp粉婷鞠能站大頭是因為這兩家沒有直接利益衝突,粉絲相互之間容忍度更好,僅是一份隊友情的佔了多數。
第一個感覺是,有這樣的粉絲真的很難得,隨著曾艷芬的事實退團,他也要退坑,真是可惜。
我認為這個數據已經一定程度上脫水了,(微博重複id刷轉評應該剃掉了吧?),這種做下來,即使結論有偏差,數據也是極具說服力的。
另外有些結論我也不很認同,像cp這些,數據雖真,但得不出這樣的結論。
最後這些數據廣度很好,深度還可以挖,可以做到更好,然而回到第一條,聚聚要退了,可惜。
-------再說點其他的吧。現在真的沒意思,粉絲完全用屁股講話,對我家不利的數據,極速出來反駁,而且由於知識不足,常常理由蹩腳;對我家有利的數據,極速出來吹捧,有時也吹不到點上。飯圈之爭畢竟不是爭宗教道統,國家利益,階級地位,沒必要全憑屁股講話。還有,這個數據做得這麼好,絲芭大概率要來偷走了。