標籤:

數據採集器圈子的競品分析

筆者介紹:

人稱兔哥,85年苦逼金牛座,像牛牛一樣在輿情大數據圈子、企業大數據圈子、公安大數據圈子裡作為產品狗奮鬥了很多年。Coding能力一般但是比較容易理解研發人員想法,一直在努力協調領導、銷售、研發的矛盾。

一、談談大數據現狀

既然談到了大數據(其實我很不好意思叫大數據,因為一般能接觸到的數據量真的沒有那麼大),就得談一下獲取數據的渠道。我的調研不夠充分,但是大體上來說有以下渠道:

1, 產品自身獲取

這個通常包括產品本身產生的數據、用戶註冊產生的數據、埋點採集到的數據、簡單的二次分析獲得的數據等等;

2, 網路公開數據採集

不論願意與否,電腦網頁、Wap頁面、手機APP上充斥各類數據,淘寶有電商數據、國土資源有土地交易數據、動漫網站有動畫下載鏈接數據、微博有社交用戶數據。它們或多或少都是公開出來的,網路採集工具和爬蟲主要就是進行這些數據的採集;

3, 市場上購買的數據

目前市面上有不少數據交易網站了,比如數多多、發源地。國家也建設了一些大數據交易中心,但是目前雞肋化的問題有以下幾點:

  • 數據價值難以判斷。數據並沒有對標方法,也不能說用1萬條數據換xx個雞蛋。數據就是個虛擬物品,價值不可測。尤其是因為變數太多(比如數據細度、數據完整度、數據時效性等),導致數據的價值更加不可琢磨;
  • 數據質量評價起來很難。上面也說了,變數太多導致很難說某個數據包是否真的滿足用戶需求。質量的難以評價導致客戶付費購買數據的時候更加的不捨得掏錢;
  • 原始數據愈發廉價。原始數據也就是沒有經過再加工或者數據分析的數據,這部分數據雜訊多、不完整性高、時效性也可能很低,這就導致這類數據,看著量很大,但是實際上價值並不高,因為獲取難度低所以充斥各類市場;
  • 數據的防盜版、篡改、複製能力太差。數據本身就是個表格,不管是資料庫形式還是Excel、CSV,都很容易被二次轉手賣給別人。這裡很痛苦,沒有辦法做什麼類似正版遊戲的DRM驗證之類的,當別人拿到數據的時候,他們就可以「恣意妄為」了;
  • 欺騙人的數據越來越多。大家也許很奇怪,數據欺騙人是神馬?但是可能也不奇怪,畢竟很多人都寫過文章,關於數據陷阱。

論大數據的泡沫、價值與應用陷阱

數據陷阱種類太多,接觸量不夠的我實在分析不過來。簡單來說數據可以偷換名詞,下單量並不是最終交易量;也存在炒作情況,一大堆所謂的網紅,誰不知道後面是一堆托和水軍營造的輿論數據;也存在假數據情況,並不一定是網站惡意造假,可能只是當判斷這是個爬蟲的時候,估計提供假數據;等等情況。這些情況都導致我們採集到的數據是不真實的,可能會直接把我們坑進去。

這裡也順便羅列一下數據的大致分類:

社交網路、金融財經、電商購物、汽車數據、工作職業、房產數據、健康醫療、旅行戶外、科研分析、資訊新聞、閱讀讀書、娛樂休閑、體育運動、生活日常、遊戲競技、影視數據、教育培訓。

接下來談一下數據變現,這是個複雜又頭疼的問題(我又想說這是個玄學問題了)。首先是變現就意味著出售,出售就意味著市場和需求決定了價值。那麼到底有哪些需求呢:

  • 我是學生、研究人員,我需要數據寫論文;
  • 我是市場人員,我需要搜集營銷可以用到的數據(說白了就是手機號);
  • 我是產品狗,我需要競品數據;
  • 我是運營喵,我需要用戶數據、運營推廣數據;
  • 我是領導,我需要各類數據,然後我逼迫手底下人去搞……
  • 我是數據分析師,沒數據我分析個P……
  • 我是電商,我需要知道價格和市場變化,同行業的變化數據;
  • 我是投資人/股票瘋子/用錢賺錢狂魔,我需要各類金融數據指導我的投資;
  • 我是ZHENG FU,我需要數據進行可視化展現,好提升業績和裝13;
  • 我是機器學習和深度學習專家,我需要高質量的數據用來訓練模型。

等等,需求太多,數不過來。既然需求這麼明確,變現也就沒什麼問題了,各行各業對應的都會有人出來找數據,或者通過關係,或者通過數據交易網站,或者通過論壇,或者通過馬雲家……

二、業內主要幾個競品彙總

我在之前的一篇文章里把幾個公司的數據做了羅列和對比,這裡再簡單貼一下:

八爪魚

深圳視界信息技術有限公司

法人:劉寶強,成立日期:2012年12月28日,註冊資金約131萬,所屬地區-深圳市

融資:2015年12月,天使輪-百萬級;2016年8月,Pre-A輪,百萬級

一句話特點:市面上最直觀可視化且高自由度的採集工具。

神箭手

杭州快憶科技有限公司

法人:吳桐 ,成立日期:2015年11月24日,註冊資金約100萬,所屬地區-杭州市

融資:不詳,沒有確切消息

一句話特點:入門門檻最高但是自由度最大的採集平台。

造數科技

北京造數科技有限公司

法人:黃震昕,成立日期:2016年10月14日,註冊資金約100萬,所屬地區-北京市

融資:2016年10月,天使輪-百萬級

一句話特點:入門門檻最低且顏值最高的採集平台。

發源地

上海連源信息科技有限公司

法人:馬建軍,成立日期-2015年9月8日,註冊資金約128萬,所屬地區-上海市

融資:2015年9月,天使輪-百萬級;2017年5月,Pre-A輪-千萬級

一句話特點:努力做個採集市場,但是也沒忘記採集工具的網站。

火車頭

合肥樂維信息技術有限公司

法人:李進斌,成立日期-2008年7月28日,註冊資金約100萬,所屬地區-合肥市

融資:不詳,不確認是否獲得融資

一句話特點:最老牌的主流採集工具,也是最「軟體」感的採集工具。

集搜客

深圳市天據電子商務有限公司

法人:華天清,成立日期2011年7月14日,註冊資金300萬元,所屬地區-深圳市

融資:目前沒有融資信息

一句話特點:操作和起名最讓我頭疼的採集工具……(個人意見)

三、產品功能對比

以上是數據採集界的主流公司。下面是功能分析,這裡需要說明一下,因為我是個人評測,沒有辦法用到付費的高級功能,所以有些項目會不準。不歡迎吐槽,但是歡迎建議修正……

PS:這個分析的Excel表格我會作為個人持續更新,不過不會提供下載,如果是感興趣的業內人士請加入我的QQ群交流。

這張圖直接來看並不合理,為什麼這麼說呢,因為人無完人,軟無完軟,每個軟體或平台都有自己的特點,很難直接比對分析,對標的軟體也不盡相同。我們這樣來看會比較好:(集搜客因為用不慣暫時不在分析範圍里)

  • 八爪魚和火車頭都是採集工具,並不是平台,屬於直接對標產品;
  • 神箭手和造數都是採集平台,並不是工具,屬於直接對標產品。造數和國外的Import IO屬於直接對標產品;
  • 發源地傾向於數據市場,本身應該對標數多多,不過我這篇文章不做分析,因為這篇文章主要分析採集工具/平台。

各個平台都在飛速發展,功能也一步一步改進,需要大家以包容的心態看待產品。

四、產品流程圖對比

八爪魚基本流程圖

神箭手基本流程圖

造數基本流程圖

流程上我就不做過多解釋了,畢竟幾句話就想解釋清楚人家開發這麼久的工具/平台,本身就是個不科學的事情。

五、盈利模式對比

八爪魚

個人用戶可以利用積分很快的開始使用,甚至可以說不花錢也能搞定很多採集。八爪魚宗旨是讓更多人用起來,對採集量有需求的用戶重點推廣旗艦版以上具備雲採集功能的版本。企業版我個人認為推廣難度較大,大多數企業還是傾向於以項目形式合作,所以八爪魚本身也會有不少項目需求。對八爪魚來說,2B和2C兩個市場可以兼顧。

神箭手

個人用戶也可以比較容易上手,但是只限於用別人開發好的爬蟲。想自定義的話,上手門檻非常高,屬於核心向產品。大部分好用的爬蟲都需要高級的賬戶和IP代理,所以神箭手很難個人免費使用。目標用戶更加2B化,一定程度上局限了客戶數量,但是高端用戶和技術型公司會更感興趣。本身平台屬性非常高所以企業項目需求量應該也不會小,就看該公司是否願意多接了。

造數科技

目標用戶目前並不是太明確,雖然網路文章上說的是目標幫助企業解決數據問題,但是本質上來說,現在的造數非常面向C端。簡單易用的採集,直觀的界面操作,高顏值讓這個工具成了新的小白福音。但是因為沒有充值按量付費功能,只能包月購買,失去了獲取只打算臨時或偶爾用用的C端用戶的機會。對於B端,採集平台只是證明公司有數據獲取能力,剩下的就看就看商務能力和數據質量了。

六、SWOT分析

七、結尾

為了寫這篇分析,我調研了不少數據,也準備了一陣子。這裡特別感謝我在數據圈子裡的朋友們,以下排名不分先後:

八爪魚創始人 劉寶強 Keven bazhuayu.com

神箭手創始人 吳桐 shenjianshou.cn

造數科技HR Amy zaoshu.io

綠盾公司創始人 丁大強 http://lvdun.net

兔哥數據交流QQ群:462346024

兔哥個人博客:www.geekerlee.com

推薦閱讀:

【SEO】有了這個工具,數據採集抓取如此簡單,動態代理IP原來是這麼回事
八爪魚採集入門到熟練——01寫規則前的準備工作
2017年,數據採集行業發生了哪些事情
淺談一下最近使用八爪魚採集器遇到的坑(還有對比其他採集軟體和爬蟲)

TAG:数据采集 |