八爪魚採集器能取代python爬蟲嗎?

http://www.bazhuayu.com
題豬不會代碼,想整理一個選擇留學院校的資料庫,方法是爬下各種不同表現形式的選校網頁(需制定多套爬蟲規則),不過偶然發現這個軟體,還在摸索用法,有沒有用過的同學說說看法?


用過八爪魚,火車頭,小飛俠等諸多採集器,很多功能類似,也是很基礎,但終有一點就是要收費,採集下來的數據沒法展現在一個平台上,讓用戶直觀的看到,另外還有就是CS架構固有的缺點,這裡就不多說了。


現在搞偽原創的哥們這麼辛苦啊,做個垃圾站站長還要操心python爬蟲,真辛苦。

答案是顯然不能,python爬蟲可以作為八爪魚的基礎內核哇,爬蟲可以取代八爪魚,但八爪魚這種應用級別的軟體,怎麼能取代內核呢


作為同時使用八爪魚採集器和寫爬蟲的非技術的莫名其妙喜歡自己琢磨技術的互聯網運營喵。。。我來談談心得感想。

八爪魚有一些優勢,比如學習成本低,可視化流程,快速搭建採集系統。能直接導出excel文件和導出到資料庫中。降低採集成本,雲採集提供10個節點,也能省事不少。

不好的地方就是,即使看似很簡單了,而且還有更傻瓜化的smart模式,但是裡面的坑只有用的多的人才清楚。關於這個我在我的博客里簡單寫了寫,不過說實話心得太多,還沒仔細整理。

首先裡面的循環都是xpath元素定位,如果用單純的傻瓜化點擊定位的話,很死板,大批量採集頁面的時候很容易出錯。另外用這個工具的,因為方便,小白太多,成天有人問普通問題,他們都不會看頁面結構,也不懂xpath,很容易出現採集不全,無限翻頁等問題。

但是八爪魚採集器的ajax載入,模擬手機頁面,過濾廣告,滾動至頁面底端等功能堪稱神器,一個勾選就能搞定。寫代碼很麻煩的,實現這些功能費勁。

八爪魚畢竟只是工具,自由度肯定完敗編程。勝在方便,快速,低成本。

八爪魚判斷語錄較弱,無法進行複雜判斷,也無法執行複雜邏輯。還有就是八爪魚只有企業版才能解決驗證碼問題,一般版本無法接入打碼平台。

還有一點就是沒有ocr功能,58同城和趕集網採集的電話號碼都是圖片格式,python可以用開源圖像識別庫解決,對接進去識別便可。

這裡更新一下:

之前寫的感覺有片面性,畢竟是那個時代我的心境下寫出來的。一段時間之後,思考了一下,數據採集的需求才是決定最終使用什麼工具的。如果我是大量數據採集需求的話,爬蟲一定是不可避免的,因為代碼的自由度更高。八爪魚的目標我覺得也不是取代python,而是實現人人都能上手的採集器這個目標。

另一點就是python學習容易,部署簡單,開源免費。即使只學了scrapy也能解決一些問題了,不過麻煩的就是本來一些工具里很簡單選擇就能搞定的功能,必須靠自己寫或者拷貝別人的代碼才能實現,如果不是專職寫爬蟲的話,很快就想從入門到放棄了……

綜合寫了一下對比和坑,放在知乎專欄里了,有興趣的可以去看看:

淺談一下最近使用八爪魚採集器遇到的坑(還有對比其他採集軟體和爬蟲) - 知乎專欄


連Linux都不支持


八爪魚是工具,python是代碼,八爪魚的目標是讓有需要採集網頁的人都可以使用工具輕鬆達到目的,就這個目的來講,八爪魚就是要取代眾多公司自己爬蟲工程師團隊開發的python爬蟲程序,我覺得完全取代有點困難,總有些人就是一定要求自己開發的,這種就沒辦法了,但是從成本,效率,響應需求變化的能力,通用性,易用性,IP資源,防封能力,智能化程度,對使用人員的要求等等考量爬蟲做的好不好的指標來看的話,八爪魚目前所達到的技術和產品能力,一般的技術團隊用python是無法達到的。


對於小白來說 夠用了八爪魚


這不是取代的問題。python是語言,爬蟲是技術,而且,不僅僅是python,很多語言都可以實現爬蟲技術。
但是,你要知道,當要採集、爬取的數據是大量的時候,單機採集是十分緩慢的
而八爪魚採集器還提供了雲採集服務,在很短的時間內就可以完成你可能需要幾天的時間來採集的工作量。
======================================================================
補充:
而且,你要知道,沒有編程經驗的人是有很多的!八爪魚採集器可以自定義採集規則,讓不懂編程的人也可以通過可視化UI,採集到自己想要的數據,非常容易上手!
提供兩個鏈接供樓主參考:
姍姍來遲的八爪魚
如何解決問題-寫在神獸八爪魚還年輕的時候


之前用過火車採集器,然後學python,感覺其實原理是一樣的。
用軟體採集數據,優點是不用你去寫代碼,不用考慮怎麼寫多線程,不用……但缺點是靈活度沒有自己寫代碼的高,數據採集下來之後如果需要預處理也不行。。。好吧,對於採集軟體我用的不多,還有什麼優缺點也不太清楚。
但是我還是喜歡Python寫爬蟲
哦(????????)對了,採集軟體就是收費收費收費


簡單來講,使用八爪魚對於不懂技術、語言的技術小白來說,還是很好上手的,可以容易的從任何網頁精確採集到需要的數據,生成自定義的、規整的數據格式。
相對於其他採集軟體:1.操作簡單:可視化的圖形操作,會使用電腦上網的人都可以輕鬆掌握;2.可以進行雲採集
採集的任務可以自動分配到雲端多台伺服器同時執行,提高了採集的效率;
3.可以將採集到的數據,生成、編輯為規整的數據,對於擺脫人工搜索及收集數據的依賴,從而降低獲取信息的成本,提高效率是有較大幫助的。

雖然沒有語言的那麼自由,但面對量大的數據採集時,雲採集的還是可以提高挺多效率的。


簡單的說八爪魚是一款任何人都可以使用
任何網站都可以採集
的通用性採集軟體
並且他的雲採集可以把採集任務自動分配到雲端多台伺服器同時執行,採集效率特別高,對於大數據採集也會很快完成。


現在做軟文的不容易


別逗了
python能代替八爪魚
因為無論你用八爪魚採集什麼,我都便宜一半用python給你採集
我認真的


答案是不能。

一般稍有技術實力的公司都有自己爬蟲團隊,以python爬蟲居多。

為什麼呢?

  1. 效率低,這類軟體用瀏覽器訪問一個頁面,吭哧吭哧,累了半天,才抓幾個頁面。
  2. 限制多,比如爬蟲一個常見需求,增量更新,不能實現

當然一般採集器軟體也是有需求的,對於不會代碼,不會技術的人來說,稍微學習入門,就可以採集一些簡單的網頁數據。

在這些採集器軟體中,推薦下爬山虎採集器,可以一鍵自動分析提取網頁數據,自動分析列表數據。集成了2種內核模式,在採集Ajax類型的動態網頁時,使用優化過的瀏覽器內核;在採集靜態頁面時,使用HTTP引擎,快速高效。

首頁有視頻可以看到採集效果


什麼時候這軟體能做到正常運行十分鐘不發生「未響應」,再說其他的吧。


當時好像沖了一年的八爪魚專業版,當時專門用來採集每天的股市龍虎榜,尼瑪的過兩三個月後專業版不能使用雲採集了,必須要升級旗艦版,好大的坑。後來沒用了,雖然很方便,但是出爾反爾的這個坑讓人很憤怒。


感覺題主的本意不是在討論技術問題,或者從高層面探討應用型軟體能否取代面向過程的程序語言,只是想了解一下,作為不會寫代碼的童鞋,想在短期內爬取一些數據,應該用哪種方法。

從個人經歷來看,我目前還是比較傾向於使用軟體的。我也是沒有系統學習過編程,雖然自己湊合著學了點Python,也會做很多簡單的處理,會使用很多包。但是最後還想放棄了自己爬蟲,決定使用現成的軟體,目前在用的是 集搜客網路爬蟲 。可能八爪魚更有名一些,但是基礎功能應該都差不多。主要放棄的原因是,自己寫代碼用包的時候,會遇到很多實際的問題,比如中文解碼問題,滑塊問題,雖然都是小細節,但是如果想要爬下比較好的數據,細節問題也必須處理,短時間內可能很難實現。

此外,軟體的另一個好處,就是可以多線程,也就是可以加快速度

關於題主的問題,個人認為主要關心的點可能有兩個

1,軟體好不好用,爬下來的內容會不會相比於Python這樣的語言爬下來有問題?

根據我的使用來看,爬下來的數據並沒有問題。雖然爬的過程中會因為原網頁有些限制,有的時候需要手動操作一下,但最終是可以把所有信息爬下來的。

2,軟體有沒有什麼其他不好的地方

對於這個,其實前面大家也都說了,最大的不好可能是要收費。(但是目前來看,費用其實並不高,也就是一頓飯錢)。至於靈活性問題,這是要根據需要來看的。目前來看,只要網頁本身比較規律,想實現的功能都是可以實現的。


~~~~~

當然,如果要從高層面探討應用軟體是否能取代面向過程的程序語言這個問題,也是可以的。但是感覺多少像一篇高考作文,還是不探討了。


python有個庫就能模擬瀏覽器,特點是特別慢


能不能取代不知道,最起碼感覺八爪魚的東西太貴了,免費版的就是那樣,用起來很一般,甚至說沒有什麼可以用的,網上便宜些的,我還真找到了,拿走不謝!

信息採集系統-信息採集軟體-信息採集

先匿名了,省的被人肉,哈哈!


爬蟲技術應該比採集器厲害點,比如慢慢買處理比價數據七年數據全 穩定 結果快速。http://api.manmanbuy.com/desc.aspx


現在的爬蟲有很多,但是說誰取代誰都是不一定的,比如我知道的soshu也是也是一個很不錯的爬蟲數據收集器


推薦閱讀:

TAG:Python | 數據採集 | 爬蟲計算機網路 | 大數據 | 八爪魚採集器 |