寫了個小爬蟲批量採集了些色詞
03-17
之前寫過文章 分析:上萬個站群做垃圾色詞實現霸屏和引流 ,裡面的[浙江東大電纜有限公司]站群到現在仍在運行,而且幾天前留意了下,依舊是收錄一批,被K一批,再上一批。
讓我記憶猶新的是裡面數不清的色詞,反正閑來無事,弄了個小爬蟲採集了百來個站,分享給有用的老哥們。
爬蟲沒什麼好說的,原理大概是:
1.百度搜索關鍵詞找到這批站群
2.爬取百度快照 (因為有些站已經被設置轉流或者打不開了,但是百度快照仍然顯示老樣子)
3.根據快照地址抓取頁面源碼
4.分析頁面源碼,提取marquee標籤里的內容
爬蟲沒有帶過濾功能,所以裡面有很多是雜項的,需要二次整理。
大概長這樣的,壓縮了也有9M多,然後打包上傳到百度雲了,鏈接:http://pan.baidu.com/s/1miqqwAk
提取密碼到訂閱號:站長好像一條狗 拿或者直接到群里文件共享,╮(╯▽╰)╭ 誰叫點贊少。
PS:之後打算借勢做批誘導站群,有興趣的老哥提供伺服器和域名,我來做技術玩。掙不掙錢也沒個底。
---------------------------------------------------------------------------------------------------------------------------
如果覺得文章不錯,請關注
訂閱號:站長好像一條狗
我會在裡面分享互聯網的黑與白。
往期專欄【我的知乎文章】:
沒有靠譜的廣告聯盟,只有苦逼的站長
二級站群的SEO實驗測試報告
分析:上萬個站群做垃圾色詞實現霸屏和引流
拿來兩個老域名做一次SEO對照測試
兩天把一個小網站升到權重6
實例分享一波:站群式的網站鏡像與克隆
以極低成本做了一批二級域名站群
推薦閱讀: