標籤:

八爪魚好在哪裡?壞在哪裡?(不負責任的表揚加吐槽)

如果不從競品分析報告的苦逼角度來探討八爪魚好在哪裡、差在哪裡,那就從用戶感受來說一下。

首先,我本人使用過八爪魚、火車頭採集器、火車頭瀏覽器、集搜客採集器、神箭手採集器、其他一些不太知名的採集器(比如發源地、前嗅數據等等),還有我自己會用Python寫基本的爬蟲(包括Scrapy框架和簡單的分散式,我是產品狗,coding能力很一般),綜上所述,大部分主流數據採集工具都嘗試了,也不同程度感受了。所以我的觀點角度來說,不會像小白用戶,也不像技術大牛,屬於折中的產品汪角度。

下面來說八爪魚優點:

1,小白用戶福音(簡單易用、規則好找、可視化界面、容易學習和模仿)

如果我是小白用戶,我不太懂Html和Http協議,那麼我看完所有上面所說的工具之後,我可能會做出這樣的選擇:

  • 直接去某數據平台購買數據(比如數多多和發源地等)
  • 直接去淘寶買規則(火車頭採集器和八爪魚居多)

小白用戶是啥:

  • 領導讓我採集這些數據,臣妾不會啊,臣妾做不到啊……
  • 老師讓我採集數據做論文啊,臣妾做不到啊……
  • 數據看樣子可以買到,但是沒人給我掏錢啊,臣妾沒錢啊……

綜上所述,一老子沒錢,二老子不懂技術,三老子還想要數據。最簡單便宜省錢的方法就是用八爪魚,幾乎沒有其他可選的。為啥?

火車採集器(499元起)你得用舊版才能免費導出csv出來,excel都沒戲,新版你連這個都導不出來。火車瀏覽器本來就得花錢買(2180元起),否則也沒法用,而且學習成本有些高。其他幾個採集工具很難或者沒有導入規則的方法,網上也沒什麼賣規則的,神箭手採集雖然可以免費採集一些數據,但是導出也是要收費的,而且數據多了還得單獨下載數據導出工具。

八爪魚怎麼省錢?完善信息1000積分,每天簽到還30積分,網上下個規則或者買個規則,剩下的靠積分就足夠搞定初期的採集了,再不行充值一些積分也能隨需隨用,導出excel、資料庫都可以。

2,直觀看到網頁變化,不管是測試還是採集的時候都容易避坑

很多人說,火車採集器採集速度快啊,八爪魚好慢啊,弱爆了。不可否認的是,火車採集器是無需完整顯示頁面就可以採集數據的,這樣的好處就是它介於爬蟲和八爪魚中間,速度確實快一些。但是不好的地方就是,它必須自己拼網址啊!拼網址啊!拼網址啊!本來八爪魚點一下就可以搞定的東西,因為火車頭看不見,只能自己去瀏覽器里看頁面代碼才行。採集的時候因為看不到網頁變化,只能看到說採集了xxx條數據,說實話每次測試火車頭我都頭疼,誰知道採集了一大堆,是否都是正確數據,又看不到頁面的具體變化……

你說一開始寫火車頭規則的時候測試可以看到,嗯,對,可以看到,但是網站都是傻子么,讓你隨便採集的網站已經越來越少了,動不動就給你403或者加驗證了。條件判斷呢?火車頭哪有這玩意啊……八爪魚雖然慢點,但是測試的時候可以看到頁面是如何變化的,除了問題可以追溯和調整,否則慢慢哭去吧。

另外一個優點就是看著數據唰唰的採集上來的時候,我才不會告訴你感覺很爽……

3,寫規則速度快

先不管小白用戶,我們這種有一定經驗的用戶,寫八爪魚規則,比如採集汽車之家某車型全部文章全部評論的規則,第一次寫需要40分鐘。也許你會問,這玩意還要這麼久,你弱爆了……我的解釋是汽車之家用了ajax載入,而且有的頁面需要分析一下「下一頁」的跳轉鏈接定位,避免無限循環翻頁還有頁面丟失的問題。第一次寫規則需要一個一個頁面查看一下xpath定位,並且單機測試一下。所以實際上大部分時間用在分析頁面上了,寫規則的時間其實也就十幾分鐘就足夠了。如果用火車頭或者別的工具,那就頭疼了……網址如何拼配琢磨10分鐘,ajax載入的問題,火車頭的老版免費版根本解決不了,新版還得買高級的json解析才好弄,即使如此還得抓包自己搞清楚網址如何組合……除非是老鳥,否則誰敢說第一次寫三四十分鐘就能搞定這個規則?神箭手就更不用說了,寫之前先去把js學一遍,然後開發文檔看一遍……

其他優點不說了,請各位看官自行摸索,說多了就有軟文嫌疑了。

下面進入大家喜聞樂見的批鬥環節:

1,莫名其妙的錯誤,簡單粗暴的解決辦法

如果我只是從0開始寫一個規則,通常問題不大,但是當我修改或者複製規則里的某些部分再添加到另一個規則里的時候,有時候就會出現一些莫名其妙問題。比如規則邏輯結構顯示亂套了、規則執行出錯等等,尤其是邏輯判斷加入比較多的規則,就容易亂套。

解決辦法倒是很簡單,全部刪了按照新的想法重新做一個規則……

2,雲採集不是號稱10倍速,多IP么?怎麼感覺還那麼慢

這個是很多人的誤解,雲採集是10個節點跑,但是應該不是什麼時候都能到10個節點,也不是10個節點就是10個IP。所以速度並不一定是10倍速,但是我是真心希望可以10個節點,10個IP,最好還可以選擇多長時間換IP,這樣才能解決很多煩人的採集問題,這些功能多收錢也是正常的。

3,雲採集丟數據問題

因為看不見雲採集的具體運行過程,也沒有追溯方法,所以丟了什麼數據,哪些頁面沒採集到完全不知道。最好能有個雲採集的詳細每個節點的運行日誌允許用戶導出查看。

4,自動IP代理啥時候才能有

目前除了雲採集(還不確定多長時間IP切換),本機的單機採集只能自己寫代理伺服器IP和埠進來,於是只能網上先買個自動切換的代理IP再填進來,不方便啊。八爪魚官網說快要添加好這些功能了,我們拭目以待吧,目前反正切換IP不好弄。

這裡說一個邪惡的辦法……網上買一個快速切換IP的VPS主機,然後讓八爪魚在上面跑單機,就可以實現IP自動切換了,記得買IP自動切換型的,PPPOE撥號切換的不行,因為八爪魚沒這個自動撥號的功能。

5,最後的批鬥,那就是某些情況下沒有神箭手採集器省事

以下神箭手採集器的功能,八爪魚的產品經理需要想一下八爪魚現在是否有,如何簡化操作。

  • 神箭手可以購買專門人員開發的規則,並且規則還可以更新,確保採集不會出錯(而且是一鍵更新)
  • 神箭手可以採集圖片,並且還可以託管到臨時存儲空間里
  • 神箭手可以一鍵勾選是否IP代理,採集節點數量還可以隨時增減
  • 神箭手可以輸出日誌,還可以查看詳細的日誌信息
  • 神箭手可以設置自動採集(每天幾點到幾點,間隔多長時間,是否檢測頁面變化,變化的數據是更新還是增量採集等等,一個頁面就搞定)
  • 神箭手可以自動導出數據到資料庫,後台自動的,不需要打開軟體,因為它就是個平台而已
  • 神箭手可以自動發布數據到博客、論壇,同理,因為就是個平台,不用開電腦也可以繼續運行

所謂人無完人,機無完機,採集器也沒有最理想的。如果讓我選,我會八爪魚優先用,神箭手彌補,Python代碼搞定剩下的。火車頭?我用Py寫代碼又不花錢,我用火車頭這種差不多的東西有啥用……

最後推廣一下我的博客:geekerlee.com


推薦閱讀:

投融資的數據如何快速採集
獲取歷史(過去幾年)的全網輿情數據有些(購買)渠道?
GrowingIO用戶行為數據採集和分析實踐
八爪魚採集入門到熟練——01寫規則前的準備工作
一個來自用戶的時薪「暴漲」的故事

TAG:数据采集 |