用爬蟲刷文學網站(比如晉江、起點)的點擊率會被抓嗎?

比如說,我寫一個headless browser,每次隨機一個時間段,然後隨機點擊某些章節,相當於可以一直給文章提高點擊率。

那麼問題來了,那些網站有監管機制嘛(比如一個IP點擊上限之類的?)?

尤其是像晉江這種,我感覺連UI/UX design都沒有,伺服器也感覺不夠用。(嘛,總覺得我要是寫個爬蟲,分分鐘可以進排行榜了啊………

(題主只是一個程序員,突發奇想有了疑問,並不是真的要用技術刷分啊…………


你的問題描述是:

比如說,我寫一個 headless browser,每次隨機一個時間段,然後隨機點擊某些章節,相當於可以一直給文章提高點擊率。

那麼問題來了,那些網站有監管機制嘛(比如一個IP點擊上限之類的?)?

尤其是像晉江這種,我感覺連 UI/UX design 都沒有,伺服器也感覺不夠用。(嘛,總覺得我要是寫個爬蟲,分分鐘可以進排行榜了啊………

現在假設你是網站的運維人員,你看到一個IP地址無間隔的訪問,使得請求量陡增,你會怎麼辦?自然而然的,用最簡單的辦法,直接在伺服器上封殺這個IP地址。於是你想,噫,我弄個隨機的時間,隨機的點擊總可以了吧?一激動,在知乎上提了一個問題。

可是,你能想到的,網站設計者就想不到么?如果讓你設計這樣的網站,點擊率直接跟利益掛鉤,你會怎麼設計?我想到一個簡單的辦法:一個 IP 在一天內點擊某個章節只計數一次。
隨手一搜,證實了我的想法:
晉江的文章點擊量算不算作者本人的?
回答中提到,每天每個IP只算一次點擊。

以晉江、起點的知名度,我相信這樣的網站是有反爬蟲的舉措的,關於IP限制的問題,還有一個回答可以參考:
晉江點擊量的問題?自己點的到底算不算點擊量??_百度知道

這樣搜索到的回答靠譜嗎?無法證實回答者是不是晉江的程序員,我只能說有一定參考性,換個角度思考,如果讓你設計、維護這樣的網站,你會無視爬蟲的問題?

尤其是像晉江這種,我感覺連UI/UX design都沒有,伺服器也感覺不夠用。(嘛,總覺得我要是寫個爬蟲,分分鐘可以進排行榜了啊………

用戶界面、用戶體驗顯然不是問題的核心,寫代碼是技術,也是藝術,在這個問題上,防爬蟲更傾向於技術問題,更依賴於後端程序員的技術(當然,js也可以防爬蟲)。

「伺服器也感覺不夠用」,伺服器的多少與防「用機器提高點擊率」沒有必然聯繫,當然如果目的是搞垮某個網站,伺服器的多少就很有關係了。然而你的目的只是提高某小說點擊率。打個比方:小明為了防止跳蚤撓,是否需要組建一支軍隊?不知道這樣解釋是不是清楚呢?

就爬蟲本身來說,有爬蟲(Spider),就有反爬蟲(Anti-Spider),就有反反爬蟲(Anti-Anti-Spider),就有......

在我看來,兩者之間的鬥爭是「魔高一尺,道高一丈」,你的爬蟲讓我的網站負載過重,我就封你 IP,你發現被封了 IP,就用代理,每半小時換一次,我也發現
了,某些 IP 半小時內訪問的頻率一模一樣,寫個腳本干翻你。於是你訪問的時間更隨機了,但還是給我的伺服器造成了壓力、導致排名不公平,我再寫個腳本,一定時間內點擊次數過多,丫必須登陸或者,輸驗證碼。好了,於是你搞定了圖像識別,自動輸驗證碼,自動登陸,干,我讓前端同學用js動態生成 token,讓你玩......

遊戲就這麼結束了么?不,寫代碼的樂趣就在這,就像武俠小說里修鍊掌法、內功一樣。但我的看法是這樣的:無論反爬蟲多麼厲害,爬蟲總是有機會贏,因為爬蟲的本質是模仿人的行為瀏覽網頁,你總不能禁止別人瀏覽網頁吧,除非你把網站關了。 所以,與其提這個問題(學習太好了,萬
一考上清華怎麼辦呢?健身兩天了,萬一練成了八塊腹肌怎麼辦?),倒不如 just do
it。不過話說回來,真的別瞧不起小眾網站的技術人員,搞不好人家是非常有追求的軟體工程師呢,也不要瞧不上在晉江、起點默默耕耘的「非技術人員」,搞不好人家只是不屑於這麼做呢。

在知乎上見到好幾個同學抱怨說爬知乎的時候被封 IP 了,有的還封了整個網段,搞得整個學校都上不了知乎。其實,限制 IP 啊,維護 cookie 池啊,基本都是反爬蟲最基本最常用的手段,所以,既然晉江限制一個 IP 一天內只計算一次,管它呢,咱先試試代理 IP 唄(逃

回來了,剛在淘寶上搜索了一下,可以買到晉江點擊推廣的(代理 IP ),很便宜,不過我覺得還是誠實點碼字更好一點。

希望能有所幫助。


不懂代碼不懂爬蟲

我只知道,你寫的好,遲早熬出頭
你代碼寫的好,文寫的一般,還是要沉沙。
關鍵是你有了點擊就可以進排行是不是想的太簡單?你的作收,你的文收,你的評論數,難道都可以自己搞一個代碼搞出來?

雖然晉江技術人員公認的不靠譜,但我相信任何一個網站絕對都會有相應的措施的,別僥倖心理,當然你要是不死心,也可以試試。不過,我相信,沒什麼用。

寫的不好,數據再好,還是沒人看。與其有諸多心思,想走排行榜,用漏洞用捷徑,不如多看書好好想人設,認真寫大綱,來的比你這個踏實多了。


刷點擊這種事檢查出來真不難,以前每天都會有技術向我們反映某某書刷點擊了,然而並沒有什麼卵用。如果是大神那就睜隻眼閉隻眼過去了(大神們基本不屑這種手段),簽約的書一般都會警告,沒簽約的書直接限榜就完了。有本事去刷付費榜,月票榜啊(這個是真有人干過的,嘿嘿)。

現在網文平台和手游渠道差不多,更加關注的存留率,arup值,單章訂閱這些數據,在每本書籤約之前編輯們都會評估一下這本書可能達到的水平,根本不在乎點擊,反正平台夠大渠道夠多,只要書本身不差肯定能推起來。那些以「千萬點擊」「點擊過億」為噱頭宣傳的書基本上都是網文剛剛興起的時候,那時候網文的盈利模式還沒有現在這麼明晰,主流還是走實體出版,單純靠付費訂閱獲得的收益沒有現在這麼大,所以點擊量就成了一個重要指標,畢竟高點擊意味著大量受眾。


天真的孩子,如果真的那麼容易刷,淘寶晉江刷點擊的套餐就不會那麼貴了。你以為別人沒想過嗎?圖樣圖森破23333
哦對了,如果你真想曝光率,去砸霸王票榜吧,砸個幾千塊就有了


只有刷神不會抓起點


不說別的,晉江的積分計算方法,點擊的權重好像很小啊。
你還是自己砸霸王票上金榜來得更容易一些。


推薦閱讀:

如何看待種馬小說?
文主席會不會娶李絲雅?
如何給臨高啟明寫腰封?
有什麼關於戒賭的故事?
文學對你而言是什麼?

TAG:網路文學 | 程序員 | 爬蟲計算機網路 | 晉江文學網 | 網路監管 |