你做過哪些有趣的基於網路爬蟲的應用?
01-18
比特幣國內剛興起的時候,寫了個爬蟲自動爬比特幣中國,根據價格和策略進行交易。賺了一筆錢吧。後來挖礦去京東搶顯卡,寫了個刷京東的爬蟲,爬回來之後運行其中的js載入頁面,如果有貨就給自己郵箱發郵件,點鏈接搶顯卡。
爬過國外的一個社交網,3.3億用戶,實習結束前都沒爬完,提供人臉訓練數據github https://github.com/Supe2015/badoo_scrapy_splash_redis
過年時閑著沒事兒,寫了一個簡單的抓取知乎問題的爬蟲,flyer103/zhihu · GitHub, 想通過知乎的問答分析一些社會化行為。這個爬蟲沒認真寫,沒有並行抓,跑了幾天後根據抓取的數據簡單分析了下知乎的問題量……後來忙起來,就沒繼續分析了 T_T......
其他的基於爬蟲的應用不多,主要是在工作中經常開發爬蟲。比起基於爬蟲的應用,開發一個健壯、強大的爬蟲平台對我來說更有趣、更有挑戰性,這個好玩。以前從github上搞到過一個自動爬coursera公開課視頻,slides並建好目錄的腳本,用它爬了很多很多公開課。。。
然後就束之高閣了。今年再想去用的時候發現網頁結構已經變了。。。哈哈,在我學任何語言之前,我都會做個爬蟲試試。當初開始學vb,我硬是搞出來了個多線程的(vb對多線程不感冒),當然,作為老司機,都知道爬蟲爬什麼才能顯示你技術的666。一鍋端了幾個hw,爬了好幾個g的圖片。還有種子以及視頻的鏈接文件。學c#時,寫了個基於爬蟲的嗅探器,能夠從當前頁不重複的往下一直爬,爬去指定的數據,並分類保存,超過一定大小的保存鏈接。到現在都能用。爬蟲是個好東西啊。
爬過知乎, 想做一個用戶全景試圖, 後來精力有限, 遂放棄.
基於瀏覽器的爬蟲才不會被屏蔽掉,就是速度慢了些,推薦網頁小強http://www.wangye.io
課程設計信息檢索課要求寫一個搜索引擎,用了python爬蟲,還在奮鬥。。
最近看到電腦壁紙太low了,寫了個爬蟲,爬取了一個都是美圖的動態網頁,也算是一個爬蟲的小應用吧,文章地址:40行爬蟲代碼搞定N張高清無碼壁紙下載 - 知乎專欄
爬百度網盤用戶分享的數據,然後做了一個網盤搜索功能 網盤搜索,最厲害網盤搜索,百度網盤搜索,百度雲搜索 - 找到您想要的一切
爬了150萬空間說說,做了一些數據分析:說說總數直方圖加了好多QQ群, 然後用爬蟲爬取QQ群信息,整理分析得到自己想要的數據。
http://www.gooseeker.com 自己上去看
推薦閱讀:
※使用爬蟲如果不是用來為機器學習或數據挖掘收集數據,還能做什麼有趣的事情呢……?
※如何能找到失散多年的朋友?
※如何判斷瀏覽器post的是form data還是json data?
※一個關於python3 requests庫使用代理訪問IP查詢網站的問題?
※同一域名下同一性質部分網頁無法爬蟲,請問是什麼原因造成的,應該如何處理?
TAG:應用程序Application | 爬蟲計算機網路 |