寫了個小爬蟲批量採集了些色詞

之前寫過文章 分析:上萬個站群做垃圾色詞實現霸屏和引流 ,裡面的[浙江東大電纜有限公司]站群到現在仍在運行,而且幾天前留意了下,依舊是收錄一批,被K一批,再上一批。

讓我記憶猶新的是裡面數不清的色詞,反正閑來無事,弄了個小爬蟲採集了百來個站,分享給有用的老哥們。

爬蟲沒什麼好說的,原理大概是:

1.百度搜索關鍵詞找到這批站群

2.爬取百度快照 (因為有些站已經被設置轉流或者打不開了,但是百度快照仍然顯示老樣子)

3.根據快照地址抓取頁面源碼

4.分析頁面源碼,提取marquee標籤里的內容

爬蟲沒有帶過濾功能,所以裡面有很多是雜項的,需要二次整理。

大概長這樣的,壓縮了也有9M多,然後打包上傳到百度雲了,鏈接:pan.baidu.com/s/1miqqwA

提取密碼到訂閱號:站長好像一條狗 拿或者直接到群里文件共享,╮(╯▽╰)╭ 誰叫點贊少。

PS:之後打算借勢做批誘導站群,有興趣的老哥提供伺服器和域名,我來做技術玩。掙不掙錢也沒個底。

---------------------------------------------------------------------------------------------------------------------------

如果覺得文章不錯,請關注

訂閱號:站長好像一條狗

我會在裡面分享互聯網的黑與白。

往期專欄【我的知乎文章】:

沒有靠譜的廣告聯盟,只有苦逼的站長

二級站群的SEO實驗測試報告

分析:上萬個站群做垃圾色詞實現霸屏和引流

拿來兩個老域名做一次SEO對照測試

兩天把一個小網站升到權重6

實例分享一波:站群式的網站鏡像與克隆

以極低成本做了一批二級域名站群


推薦閱讀:

TAG:爬蟲計算機網路 | 網站 | 採集 |