爬蟲用哪個好？

12-28

scrapy還是Heritrix還是WebCollector？

現在的爬蟲是百花齊放，各種工具都有

python:scrapy,pyspider
Java:webmagic
Golang: Pholcus
.net : abot
.......

但是從實用性和易懂的角度，python 你可以首先考慮，因為python入門容易，scrapy的社區活躍，出了各種問題都可以找的到答案。
關於教程的話，看大魚的博客吧，裡面的有一個系列的教程：[置頂]scrapy爬蟲教程導航

我也是用的webmagic java的其他語言也不會

使用 Chrome 瀏覽器插件 Web Scraper 可以輕鬆實現網頁數據的爬取，可以實現不寫代碼，指哪爬哪的目標。

當然你得爬牆去chrome一趟：

https://pic1.zhimg.com/v2-80728428c8af4c1f360d70c3ddf32820_b.png

Web Scraper 的學習內容雖然簡單，但你還得學點東西。比起寫代碼，已經強很多了。

官網中的視頻教程 http://webscraper.io/tutorials
知乎@陳大欣的回答中寫了詳細的步驟，並錄製了視頻教程。

視頻教程(1)：http://www.bilibili.com/video/av9664397/
視頻教程(2)：http://www.bilibili.com/video/av9708200/
這個問題來源零基礎如何學爬蟲技術？ @陳大欣在文章中把 Excel 爬蟲，web scraper，代碼爬蟲做了比較分析

https://pic1.zhimg.com/v2-e71376447a0299cbb2bc2ebdfdf41c60.png

關注這個公眾號的都是奇才。

看需求了，如果你想研究，就去看一些爬蟲框架，比如Nutch（分散式的），還有諸如此類的一些。
如果想進行二次開發，處理js頁面的話，看看phantomjs這種用瀏覽器內核的書寫。
如果你需求並不是很高，自己動手寫一寫小的爬蟲，在在這些小的爬蟲的基礎上慢慢的開發出適合自己的一套框架，解析頁面用jsoup就好了。

我並不理解樓主想問什麼其實=_=！

看你需求了。玩python人喜歡用scrapy，heritrix還是比較適合整站直接爬取，不去做二次開發。WebCollector比較適合做有精準抽取抽取業務的爬蟲，很適合做二次開發。Nutch如果你不做搜索引擎，建議不要用，Nutch裡面全是是針對搜索引擎優化的。

Scrapy爬蟲輕鬆抓取網站數據，以bbs為例詳細介紹了抓取過程。

java的話，強烈推薦webmagic~

爬蟲工具的話，市面上有很多啊，比如八爪魚，火車，前嗅等等，
我是從事數據工作的，這些軟體我基本上都使過，我後來就是一直用ForeSpider，
這個軟體還是可以推薦一下的，你可以下一個免費版試試。

從一個專業C++程序猿的角度說，網上流傳的各種Java爬蟲，Python爬蟲，Java需要運行於C++開發的虛擬機上，Python只是腳本語言，採集效率和性能如何能與強大的C++相提並論？C++直接控制系統的底層，對內存空間的控制和節省都是其他語言無法競爭的。首先，forespider的開發語言是C++，而且C++幾乎沒有現成的框架可以用，而火車採集器是用的C#。先從業界水平和良心來說，這個軟體可以做到從底層到上層都是他們的技術人員自己寫的，而非運用現成的框架結構。敬業的軟體精神就很重要！

其次，因為抓取金融行業的數據，數據量大，動態性強，而採集對象一般反爬蟲策略又很嚴格。所以，專門建立團隊開發不現實。請外包人員開發太貴。買現成的軟體，要考慮性價比。因為很多數據需要登錄，需要驗證碼，是JS生成的數據，是ajax，是https協議，有加密的key，有層層的驗證機制等等，分析市面上所有找得到的爬蟲軟體，沒有找到其他一家可以完全把我們列表上的網站採集下來的軟體。forespider功能強大，這是很重要的一點。

第三，金融行業龐大的數據量，用之前的速度一天可以采幾十萬條，但是forespider在台式機上運行一天可以采400萬，在伺服器上一天可以采2000萬。這樣一來，數據更新速度明顯比以前快了幾十倍。從前抓一個7500萬的網站需要好幾個月，等抓完數據早都變化的不成樣子了，這是很多金融行業的痛處。但是現在的更新速度只有兩三天。forespider的性能強大，這也是非常好的一點。

第四，其實完全可視化的採集也不需要計算機專業的。大致學習了之後就可以上手采。而且forespider關於數據的管理做的很好。一是軟體可以集成資料庫，在採集之前就可以建表。二是數據可以自動排重，對於金融這樣數據更新要求很高的行業，就特別合適。

第五，是關於免費的問題，我覺得免費的東西同時還能兼顧好用，只能是中國的盜版軟體和手機APP。大概是大家都習慣了在軟體上不花錢，所以都想找到免費的。forespider有免費版的，功能倒是不限制，但是採集數目每天有限制。

看你自己需求了，我們是自己寫的爬蟲，沒有使用其他開源的爬蟲框架

其實都挺好用的，我推薦的話，覺得搜數還不錯

哈哈，湊一個vert.x的web client，做得非常好，非同步爬取，速度刷刷的，其它那些東西都弱爆了

誰能說說goutte？

immzz/zhihu-scrapy · GitHub
一個用Scrapy+Selenium+Redis來爬取知乎的框架

life is short, you need python。哈哈

神箭手雲爬蟲
挺好用的