爬蟲用哪個好?
scrapy還是Heritrix還是WebCollector?
現在的爬蟲是百花齊放,各種工具都有
- python:scrapy,pyspider
- Java:webmagic
- Golang: Pholcus
- .net : abot
- .......
但是從實用性和易懂的角度 ,python 你可以首先考慮,因為python入門容易,scrapy的社區活躍,出了各種問題都可以找的到答案。
關於教程的話,看大魚的博客吧,裡面的有一個系列的教程:[置頂]scrapy爬蟲教程導航
我也是用的webmagic java的 其他語言也不會
使用 Chrome 瀏覽器插件 Web Scraper 可以輕鬆實現網頁數據的爬取,可以實現不寫代碼,指哪爬哪的目標。
當然你得爬牆去chrome一趟:
Web Scraper 的學習內容雖然簡單,但你還得學點東西。比起寫代碼,已經強很多了。
- 官網中的視頻教程 http://webscraper.io/tutorials
- 知乎@陳大欣 的回答 中寫了詳細的步驟,並錄製了視頻教程。
- 視頻教程(1):http://www.bilibili.com/video/av9664397/
- 視頻教程(2):http://www.bilibili.com/video/av9708200/
- 這個問題來源 零基礎如何學爬蟲技術? @陳大欣 在文章中把 Excel 爬蟲,web scraper,代碼爬蟲做了比較分析
https://pic1.zhimg.com/v2-e71376447a0299cbb2bc2ebdfdf41c60.png
關注這個公眾號的都是奇才。
看需求了,如果你想研究,就去看一些爬蟲框架,比如Nutch(分散式的),還有諸如此類的一些。
如果想進行二次開發,處理js頁面的話,看看phantomjs這種用瀏覽器內核的書寫。
如果你需求並不是很高,自己動手寫一寫小的爬蟲,在在這些小的爬蟲的基礎上慢慢的開發出適合自己的一套框架,解析頁面用jsoup就好了。
我並不理解樓主想問什麼其實=_=!
看你需求了。玩python人喜歡用scrapy,heritrix還是比較適合整站直接爬取,不去做二次開發。WebCollector比較適合做有精準抽取抽取業務的爬蟲,很適合做二次開發。Nutch如果你不做搜索引擎,建議不要用,Nutch裡面全是是針對搜索引擎優化的。
Scrapy爬蟲輕鬆抓取網站數據,以bbs為例詳細介紹了抓取過程。
java的話,強烈推薦webmagic~
爬蟲工具的話,市面上有很多啊,比如八爪魚,火車,前嗅等等,
我是從事數據工作的,這些軟體我基本上都使過,我後來就是一直用ForeSpider,
這個軟體還是可以推薦一下的,你可以下一個免費版試試。
從一個專業C++程序猿的角度說,網上流傳的各種Java爬蟲,Python爬蟲,Java需要運行於C++開發的虛擬機上,Python只是腳本語言,採集效率和性能如何能與強大的C++相提並論?C++直接控制系統的底層,對內存空間的控制和節省都是其他語言無法競爭的。首先,forespider的開發語言是C++,而且C++幾乎沒有現成的框架可以用,而火車採集器是用的C#。先從業界水平和良心來說,這個軟體可以做到從底層到上層都是他們的技術人員自己寫的,而非運用現成的框架結構。敬業的軟體精神就很重要!
其次,因為抓取金融行業的數據,數據量大,動態性強,而採集對象一般反爬蟲策略又很嚴格。所以,專門建立團隊開發不現實。請外包人員開發太貴。買現成的軟體,要考慮性價比。因為很多數據需要登錄,需要驗證碼,是JS生成的數據,是ajax,是https協議,有加密的key,有層層的驗證機制等等,分析市面上所有找得到的爬蟲軟體,沒有找到其他一家可以完全把我們列表上的網站採集下來的軟體。forespider功能強大,這是很重要的一點。
第三,金融行業龐大的數據量,用之前的速度一天可以采幾十萬條,但是forespider在台式機上運行一天可以采400萬,在伺服器上一天可以采2000萬。這樣一來,數據更新速度明顯比以前快了幾十倍。從前抓一個7500萬的網站需要好幾個月,等抓完數據早都變化的不成樣子了,這是很多金融行業的痛處。但是現在的更新速度只有兩三天。forespider的性能強大,這也是非常好的一點。
第四,其實完全可視化的採集也不需要計算機專業的。大致學習了之後就可以上手采。而且forespider關於數據的管理做的很好。一是軟體可以集成資料庫,在採集之前就可以建表。二是數據可以自動排重,對於金融這樣數據更新要求很高的行業,就特別合適。
第五,是關於免費的問題,我覺得免費的東西同時還能兼顧好用,只能是中國的盜版軟體和手機APP。大概是大家都習慣了在軟體上不花錢,所以都想找到免費的。forespider有免費版的,功能倒是不限制,但是採集數目每天有限制。看你自己需求了,我們是自己寫的爬蟲,沒有使用其他開源的爬蟲框架
其實都挺好用的,我推薦的話,覺得搜數還不錯
哈哈,湊一個vert.x的web client,做得非常好,非同步爬取,速度刷刷的,其它那些東西都弱爆了
誰能說說goutte?
immzz/zhihu-scrapy · GitHub
一個用Scrapy+Selenium+Redis來爬取知乎的框架
life is short, you need python。哈哈
神箭手雲爬蟲
挺好用的
推薦閱讀:
※python 中文url 編碼如何轉換回中文?
※爬蟲工程師的未來方向在哪?
※如何抓取etymonline的詞根與解釋?
※網路技術不斷進步,我們還有隱私么?
※豆瓣robots.txt為什麼只專門提到豌豆莢的useragent?
TAG:爬蟲計算機網路 |