關於看知乎的一些現狀和動向
反正我這半個月基本沒睡好,差不多每天都要起來修補一回,反反覆複試了很多方法,最後找到原因——95%是牆乾的,5%是因為知乎改了幾次頭像url格式。看知乎的伺服器一直在海外,主要是因為我懶得備案,也一直相安無事這麼久。但大閱兵前夕牆一抽風,爬蟲就掛了一多半,現有監控的7W多用戶(漲得真快,兩年漲了10倍)有時候只能刷出兩三W,而且崩潰好幾次,以至於沒法修復這段時間內的數據了。
現在的應急解決方案是暫時把爬蟲搬到了國內,從長遠來看,整個伺服器搬進來是遲早的,麻煩在域名備案速度太慢,而且必須中斷訪問。這期間我會使用個新域名讓它平穩過渡,至於什麼時候搬完,還得稍等十天半月的。
維護一個長期穩定運行的東西實在太耗心力,特別是它的穩定性建立在另一個網站以及跨國防火牆之上的時候。看知乎上線一年半了,如果算上我更早抓數據的時間,已經快兩年了。其中最為心力交瘁的就是最近半個月,基本把工作之外的清醒時間都交待了出去。痛定思痛之後覺得這不是辦法,可能過一段會搞點新動作,讓更多的人參與進來,分散風險的同時也讓更多人搞起數據分析,說不定又掀起一波啥啥風潮來。
在好多有關知乎的答案下面有人引用了我的網站以及數據分析結果,還是挺令人有成就感的。另外幾次撕逼中有人拿我的數據來扒對方的皮,其實只要撕得准扒得狠,也是個喜聞樂見的事。當然要是因此就說我是暗流涌動的幕後黑手就誇張了……今年新崛起的諸位風雲人物十個有九個半我不認識,起碼八個沒聽過名字,只有小爬蟲忠實地記錄著一切,要揪幕後黑爪就揪它好了。
PS 有好多人問為什麼在列表裡找不到張佳瑋(更早幾天李開復也消失了),首先我得說其實每天都有幾個人丟失,原因各種各樣,只不過排前面的幾位比較顯眼而已。但漲工資的問題不怪牆,說不定得罪了知乎,不然他的個人詳細頁為啥變成這樣:
http://www.zhihu.com/people/zhang-jia-wei/about
推薦閱讀:
※有哪些針對知乎的第三方腳本/插件?
※知乎在醫學領域有哪些專家、學者、醫務工作者、學生?
※2017 知乎「悟空」降妖除魔記
※為什麼現在一打開知乎,滿屏幕的如何評價xxx?