如何分析國內知名採集工具的優缺點?


拋磚引玉下,收集了一些信息,經過自己的切身使用發表下幾點想法:

網路爬蟲又名網頁蜘蛛,網路機器人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。如果按照大部分人的理解就是一個採集工具。

好的採集工具能給站長的工作帶來事半功倍的效果。目前國內比較流行的採集工具有這麼幾個:

火車頭,發源地,三人行,ET,狂人。

下面我們對這幾款採集工具作一個簡單的評測。

火車頭

火車頭應該是國內採集軟體最成功的典型之一,使用人數包括收費用戶數量上應該是最多的

優點:功能比較齊全,採集速度比較快,主要針對cms,短時間可以採集很多,過濾,替換都不錯,比較詳細;

技術:技術主要是論壇支持,幫助文件多,上手容易。有收費、免費版本

缺點:功能複雜,軟體越來越大,比較佔用內存和CPU資源,大批量採集速度不行,資源回收控制得不好,受CS架構限制

發源地

可能大部分人還不知道,這是我自主研發的,以前一直用爬蟲寫程序,java、python等,後面覺得很麻煩,就搗鼓著要做的簡單一些,然後就沒法收手了,最近一直在進行產品迭代。

優點:功能聚合性強、速度快、saas架構、數據可預覽、數據規則市場、api等多種輸出方式、免費

缺點:知名度還比較低

三人行

主要針對論壇的採集,功能比較完善

優點:還是針對論壇,適合開論壇的

技術:收費技術,免費有廣告

缺點:超級複雜,上手難,對cms支持比較差

ET工具

優點:無人值守,自動更新,適合長期做站,用戶群主要集中在長期做站潛水站長。軟體清晰,必備功能也很齊全,關鍵是軟體免費,聽說已經增加採集中英文翻譯功能。

技術:論壇支持,軟體本身免費,但是也提供收費服務。幫助文件較少,上手不容易

缺點:對論壇和CMS的支持一般

海納

優點:海量,可以抓取網站很多一個關鍵詞文章,似乎適合做網站的專題,特別是文章類、博客類

技術:無論壇 收費,免費有功能限制

缺點:分類不方便,也就說採集文章歸類不方便,要手動(自動容易混淆),特定介面,採集的內容有限

狂人

優點:非常適合採集discuz論壇

缺點:過於專一,兼容性不好。

就寫這麼多吧,希望對大家有用。


我感覺這些採集器很很牛 牛到我是學軟體開發的 都不會用


目前感覺最好用,最簡單的免費網頁數據採集器是(http://www.pa1pa.com)爬一爬採集器。

1.跨平台

2.零門檻,操作簡單,完全可視化操作

3.雲採集

4.雲調度

5.SaaS


作為爬山虎採集器的開發人員,我來簡單分析各類採集工具。

目前網路上的採集器按照採集方式可分為2種,

  1. 基於HTTP協議
  2. 基於瀏覽器內核方式

基於HTTP的採集器主要代表有火車頭、狂人、曠工,其中火車頭依然是這類採集器的老大,市場佔有率最高,用戶量也最大,功能最為全面。其他的都是半死不活狀態。

基於瀏覽器內核的,目前是以八爪魚、集搜客為代表,他們提供可視化的操作界面,方便用戶製作採集規則。 因為是基於瀏覽器的,所以採集的時候網頁中的css,javascript,圖片全部都要下載請求。避免不了的致命弱點就是速度慢,效率低。

爬山虎採集器,它吸取了這2類採集器的優點,在提供了可視化的操作界面同時,保留了一個HTTP引擎,在一些Ajax動態載入數據的網站上使用瀏覽器內核,在普通網頁上使用HTTP引擎。

最大程度上保證採集效率,同時兼顧用戶的學習成本和用戶體驗。


上線沒多久 但很多分析師都在用的互聯網數據採集處理平台 http://a3.simplybrand.com 推薦大家來試試。不用會技術代碼,不用看懂採集器,只需根據數據需求 進行關鍵詞配置,後台自動採集處理命中的文本內容,可選擇微博微信新聞論壇等多個渠道。


推薦閱讀:

嚴重數據傾斜文本分類,比如正反比1:20~100,適合什麼model,查准一般要做到多少可以上線?
爬蟲訪問中,如何解決網站限制IP的問題?
八爪魚採集器能取代python爬蟲嗎?

TAG:數據採集 | 工具軟體 | 爬蟲計算機網路 |