關於看知乎的一些現狀和動向

先得向大家致個歉。從9月初開始看知乎就經常出現不推送文章、大範圍頭像變黑、統計數據不全或錯亂、偶爾出現完全無法訪問的情況,讓一些老讀者比較困惑。當然更老的讀者就不困惑了,因為很早時候這也是常事。

反正我這半個月基本沒睡好,差不多每天都要起來修補一回,反反覆複試了很多方法,最後找到原因——95%是牆乾的,5%是因為知乎改了幾次頭像url格式。看知乎的伺服器一直在海外,主要是因為我懶得備案,也一直相安無事這麼久。但大閱兵前夕牆一抽風,爬蟲就掛了一多半,現有監控的7W多用戶(漲得真快,兩年漲了10倍)有時候只能刷出兩三W,而且崩潰好幾次,以至於沒法修復這段時間內的數據了。

現在的應急解決方案是暫時把爬蟲搬到了國內,從長遠來看,整個伺服器搬進來是遲早的,麻煩在域名備案速度太慢,而且必須中斷訪問。這期間我會使用個新域名讓它平穩過渡,至於什麼時候搬完,還得稍等十天半月的。

維護一個長期穩定運行的東西實在太耗心力,特別是它的穩定性建立在另一個網站以及跨國防火牆之上的時候。看知乎上線一年半了,如果算上我更早抓數據的時間,已經快兩年了。其中最為心力交瘁的就是最近半個月,基本把工作之外的清醒時間都交待了出去。痛定思痛之後覺得這不是辦法,可能過一段會搞點新動作,讓更多的人參與進來,分散風險的同時也讓更多人搞起數據分析,說不定又掀起一波啥啥風潮來。

在好多有關知乎的答案下面有人引用了我的網站以及數據分析結果,還是挺令人有成就感的。另外幾次撕逼中有人拿我的數據來扒對方的皮,其實只要撕得准扒得狠,也是個喜聞樂見的事。當然要是因此就說我是暗流涌動的幕後黑手就誇張了……今年新崛起的諸位風雲人物十個有九個半我不認識,起碼八個沒聽過名字,只有小爬蟲忠實地記錄著一切,要揪幕後黑爪就揪它好了。

PS 有好多人問為什麼在列表裡找不到張佳瑋(更早幾天李開復也消失了),首先我得說其實每天都有幾個人丟失,原因各種各樣,只不過排前面的幾位比較顯眼而已。但漲工資的問題不怪牆,說不定得罪了知乎,不然他的個人詳細頁為啥變成這樣:

zhihu.com/people/zhang-


推薦閱讀:

有哪些針對知乎的第三方腳本/插件?
知乎在醫學領域有哪些專家、學者、醫務工作者、學生?
2017 知乎「悟空」降妖除魔記
為什麼現在一打開知乎,滿屏幕的如何評價xxx?

TAG:看知乎 | 爬虫计算机网络 | 知乎 |