分散式雲爬蟲,未來的主流採集方式?

之前做網站,苦於沒有內容,後來無意間了解到了神箭手雲爬蟲,它是一個在雲端框架的爬蟲採集方式,相比八爪魚,火車頭等採集方式更靈活,更傻瓜,買了幾個月會員了,現在的效率越來越低,甚至採集不到東西,買會員的用戶也怨聲載道。雖然官方一直半死不活地更新,但是這一段時間,無數的站長和企業加入到qq群,讓我看到了偌大的市場需求,好幾個公司一下就買了一年的企業高級版,一年大概好幾萬吧,你們怎麼看?你們有什麼想法?你們做的話,會比它做的好嗎?
神箭手官網 http://www.shenjianshou.cn 希望能有個做的比它更好的爬蟲平台


國內做分散式雲爬蟲有好幾家公司都在做,這裡面有難度,也有市場,現在國內的雲爬蟲市場,占整個採集領域,其實是不到10%的。雖然現在很多公司很多主流部門都已經在遷移使用。

八爪魚在這裡面,屬於業內領先,但儘管如此,距離用戶的目標,其實還相差甚遠。不管是技術上,還是產品上。我們做這行業四年了,現在看到多了幾家競品。實在是高興得很,大家一起把這市場做大,競爭的同時,一起把產品技術做好。

GO GO GO


題主 你好,我是神箭手的CEO,首先非常高興你能關注到我們的服務。
關於更新的問題我需要解釋一下,由於服務企業的數量的增加,我們早期的架構很難滿足增長的用戶的需求,所以我們決定在去年10月份左右對全套系統從底層進行重構,由於對整體工作量預估不足,導致整個重構工作拖了3個月左右,期間確實對老版本和老用戶的維護顯得不足,導致大家對我們的工作有一些抱怨,不過雖然我們的同事一邊重構 一邊修復bug已經非常辛苦,但我們依然還是要求所有的人在客戶的問題上盡全力解決。

--------------------------------------------------一本正經的分割線------------------------------------------------------------

下面隨便聊聊關於題主談到的其他問題
1.先談談開發這樣一套系統的花費吧,首先開發這樣的系統作為CEO來說肯定是要技術的,否則光找技術合伙人估計黃花菜就已經涼了,我自己之前是在Google工作,而且工作前也有過幾次的創業經歷,算是對開發一套新系統非常熟悉了,各種坑也算是踩的差不多。所以應該說,還是給團隊節省了不少錢,算是資本效率比較高的;其次這樣一套系統本身看似模塊並不多,實際上大量的細節體驗會耗費無數的時間,而這樣一個無論從技術本身還是從用戶體驗角度都是非常有挑戰的系統,比平常開發一套社交軟體會複雜1~2個數量級,對開發人員的素質要求也會比普通的移動應用和網站高出不少,因此薪資方面就會有很大的壓力,當然 如果能自己干,還是能省不少錢,不過需要涉及到前端,後端,分散式,用戶體驗。差不多最少需要5個左右的牛逼閃閃的全棧工程師做一年吧。

2.關於市場方面,一年幾萬的收入本身肯定不算多的,知乎很多大牛估計是要笑話的,當然我們真實的收入有多少,我也不方便公布。本身網路爬蟲市場很難去具體定義市場大小,因為直接需要爬蟲的客戶並不多,而自己獨特業務結合爬蟲的場景也不是特別容易標準化,因此單純談網路爬蟲市場恐怕是要讓樓主失望的,我們之所以從一開始就跟其他採集器看著氣質迥異,畫風清奇。就是因為我們是希望能做成一個分散式的開發平台,大大降低分散式應用的開發成本,伺服器資源也可以即用即買,爬蟲只是我們的第一站,當然也是很重要的一站。

3.最後從競爭方面,我們還是希望能看到更多的同行,畢竟就算從整個大數據服務來看,在中國起步時間也不長,很多傳統公司還沒有意識到各個維度的數據對公司的重大意義。因此我們是希望能有更多的同行跟我們一起攜手把市場做大。

最後的最後,我們的新版即將上線! 更多牛逼的功能已經在路上了, 歡迎杭州的同學們來加入我們,一起開啟下個時代的數據服務。


如果是開發者,那就直接自己擼。
如果手頭緊那就用採集工具,淘寶搜索混播vps,設置時間間隔。沒有時間間隔的弄個按鍵精靈。
如果有錢,直接找找人外包。
不管怎麼搞都要混播vps,畢竟每家的數據都不是白菜。
你要是覺得演技好,直接去應聘資料庫相關人員,畢竟前幾天的新聞就出現過。
好了,只能幫你到這裡了。
最後一句,不謝。


樓主不用苦於這個問題,你可以尋找下一家爬蟲軟體公司啊, 搜數操作還挺簡單的,對於我這樣的小白只希望操作簡單 數據精準就可以了。


推薦閱讀:

如何爬取搜索引擎下某個關鍵字對應的所有網站?
為什麼這個網頁的源代碼用python爬下來後用beautifulsoup解析後會出現字元丟失?
目前做爬蟲,往後的職業發展方向是什麼?
python如何爬取字幕組網站的電影鏈接地址?
我該如何用PHP的cURL獲取這個奇葩的網頁內容?

TAG:爬蟲計算機網路 | 網頁爬蟲 | Java爬蟲 |