蜘蛛池的原理是什麼?

最近常見一個名詞,蜘蛛池,它的原理是什麼?


很久以前,本渣渣在小號寫過關於蜘蛛池的科普貼~~原文貼過來~~


----


這是一篇介紹蜘蛛池和刷百度指數的科普貼。


利用大中型站點搜索結果頁做外推,估計在大中型網站工作的同學都碰到過,把業務詞(大多是業務+聯繫方式,如「辦假證聯/系139_2011_329」)作為query,構造出搜索結果頁的url,並將url主動曝光給搜索引擎抓取,達到業務詞在搜索結果中霸屏的目的。

還有很多人做新站,前期搜索引擎抓取量極低,會通過蜘蛛池引蜘蛛抓取,快速度過沙盒期。


上面兩個例子,將url主動曝光給搜索引擎就是通過蜘蛛池實現的。淘寶上做蜘蛛池服務的,會說蜘蛛池是一種通過大量網站將百度蜘蛛來訪時集成一個池(約150個蜘蛛/秒),通過程序控制池顯示不同的外鏈地址給蜘蛛,這樣可以快速大量收錄站群鏈接或者外推鏈接。


好吧,我猜你肯定沒明白。說白了,蜘蛛池就是一堆由垃圾域名組成的站群,在每個站點下都生成海量頁面(抓一堆文本內容相互組合),頁面模板與正常網頁沒多大區別。由於每個站點都有海量的頁面,所以整個站群的蜘蛛總抓取量也是巨大的。給未收錄的頁面引蜘蛛,就是在站群正常網頁的模板中單獨開一個DIV,塞上未收錄網頁的鏈接,伺服器不設緩存,蜘蛛每次訪問,這塊DIV中展現的鏈接都是不一樣的。


說到這你應該明白了,其實就是給那些未收錄的頁面,在短時間內提供大量的真實的外鏈,入口曝光多了,被抓取幾率就大,收錄率自然也就上去了,又因為是外鏈,所以在排名上也有一定的正向加分。說到底,蜘蛛池的做的就是外鏈,所謂日發外鏈300萬,並不是不可能實現的。比如第一個例子中做搜索外推的,就是在站群的網頁中掛了一堆大中型網站搜索結果頁的鏈接。


要實現這東西,關鍵的不是技術問題,因為技術上實現並不複雜,主要是資源的問題,因為需要維護站群,每個站點做的越像正規站,蜘蛛抓取量就多。網上很多賣蜘蛛池程序的,開價基本5、6k,小白們估計以為拿過來就能直接刷,然後收錄就蹭蹭的漲,你交完錢後發現,其實就給你一套源碼,讓你回去自己填內容,然後掛載到網站底下刷,那麼問題來了,你手裡有那麼多站么?


下面說說刷百度指數。影響百度指數的主要是當日用戶搜索量和新聞源曝光量。


市面上所有刷百度指數的,都是通過刷搜索量來的,就是在百度中不斷的搜索要刷的那個詞,每次點擊ip、cookie、ua什麼的都要換。刷的模式有兩種,一種是通過控制瀏覽器真實訪問百度搜索,另一種是通過用戶訪問流量著陸頁的時候,同時或等待一定時間請求百度搜索結果頁,這點倒可以類比下通過百度統計JS用來DDOS Github(逃~),其最終的目的都是訪問百度搜索結果頁。


先說第一種控制瀏覽器訪問百度,有些軟體是直接用本地的瀏覽器,有些軟體是內置個瀏覽器內核。理論上這個刷指數的效果是最好的,因為完全是真實的瀏覽器訪問,百度根本無法識別真假,但效率很慢,若刷的詞很多的話,就比較麻煩了,得在多台機子上掛著程序。


另一種也好理解,比方說在一個有流量的網站里加iframe指向百度搜索結果頁:


&