標籤:

2017年,數據採集行業發生了哪些事情

2017年底,辭舊迎新之際,對2017年做一些小總結。首先很慚愧,我是做輿情和公安大數據出身,也接觸了機器視覺處理和NLP領域,雖然謀求做出來一些有意思的產品,包括圖像輿情產品和人工智慧情報分析、網頁抓取,但是受限於各方面條件以及我的自身能力所限,一直沒有可以拿得出手的。2017年是我內心革新的一年,這一年裡我認識了很多牛人,也感受和經歷了很多事情,我看事物的視野角度提高了一層,以前文章里寫過很多感謝,這裡不再對這些牛人列表了,從內心裡尊重他們並且努力吸取他們的知識和見解是我最優先的事情。

2017年,我見到了幾個感覺不靠譜的公司,也見過了一些感覺不靠譜的老闆(甚至有想讓我罵街的)。這裡說一些大實話,我從來只把我自己當做一個失敗的產品汪,但是我堅信我早晚會做出來我內心能承認成功的產品,只是我現在還缺失太多的東西,包括資源、人脈、技術、視野、思想理論,我只有更加精進才可能實現我的夢想。所以面對很多看了我的知乎加入我的QQ群和微信群的朋友們,我會盡量把我知道的知識告訴你們,因為我覺得我知道的太少了,完全沒有必要藏著掖著,我希望為大家創造價值,形成我們的數據愛好者圈子。

接下來回到本文專題,2017年,數據採集行業發生了什麼?有哪些值得注意的變化?

首先本文將行業內的公司進行羅列,不分先後且主要關注於國內,由於調研時間有限,有些公司可能會遺漏:

國內

  • 火車頭採集器
  • 八爪魚採集器
  • 神箭手採集平台
  • 造數科技採集平台
  • 集搜客Gooseeker
  • 發源地數據交易平台研發的雲採集系統
  • 瑞雪採集雲
  • 前嗅
  • 小豬採集器
  • 爬山虎採集器
  • 爬一爬採集器
  • 等等

國外

  • Parsehub
  • Mozenda
  • Zennoposter
  • Import IO
  • Dexi
  • Extracty
  • Kimono Labs
  • 八爪魚海外版

海外部分我暫時跟進不過來了,得重新調研和試用才知道有哪些變化了。主要還是看看國內的變化吧。按時間軸來看是這樣的:

2017-05-10 神箭手獲百萬級天使輪融資

2017-05-16t發源地獲數千萬元Pre-A輪融資

2017-06-08 八爪魚發布V7版採集器(一個大的版本迭代)

2017-10-18t造數科技成立一周年

2017-12-09 兔哥數據愛好者圈子第一次沙龍聚會(給自己打廣告)

2017-12-18 兔哥數據愛好者微信群正式開放公開加入,QQ群462346024已經達到262人

2017-12-21t造數科技獲得千萬級Pre-A融資

數據採集行業在2017年定為逐漸更加清晰化,大家分門別類的把自己產品做了定位:

雲採集平台

主要代表:神箭手、發源地、造數科技、瑞雪採集雲

軟體和工具

主要代表:火車頭(據悉正在向雲轉型,值得期待)、八爪魚(軟體+雲採集)、集搜客(主要還是基於瀏覽器)

數據交易與數據採集相結合

神箭手(爬蟲+大數據市場)、發源地(交易平台+採集引擎)、八爪魚(數多多交易平台+八爪魚採集器)

數據採集+數據分析+可視化

八爪魚(八爪魚採集器+微圖+NLP分析)

C端用戶喜歡用的產品

火車頭(老牌子,淘寶賣規則的多)、八爪魚(界面化容易用+賣規則的也很多)、造數科技(最簡單且界面也差不多是最好看的採集器)、神箭手(不確定C端用戶有多少人知道,但是理論上用起來並不難)

B端用戶喜歡的產品

這個很難界定,大體上來說B端希望得到的只是服務,還要物美價廉,所以B端用戶實際上不會對任何產品拘泥,只要能得到想要的數據就可以了,所以基本都是定製化的,很難完全標準化。高價值高利潤的客戶買的是服務,這個是我個人的認知,數據採集本身不值錢,值錢的是定製化和差異化的服務。至少,我認為也得從行業級別差異化才能得到高價值願意付出的客戶。

2017年總結

這一年數據交易受到了一些政策和法規的影響,主要原因是之前很多數據公司都在倒買倒賣涉及個人隱私的數據,赤裸裸的挑戰大眾底線。於是今年當一些騙子騙死一些人之後,包括數據堂等公司都受到了調查,也讓很多公司對數據脫敏更加關注。我認為這很正常,這是一個必然的發展趨勢,只有讓數據產業良性發展才能有長遠的價值,太多人急於變現了,這也是國人的一些劣根性。

這一年的另一個趨勢就是雲服務、雲計算、數據底層的實用化,數據分析已經是產品經理、運營經理的必修課,數據獲取就必然依賴採集工具,採集快、配置容易、數據導出方式多的平台或工具就很受歡迎。不過這裡要說的另一點是,能生成規則並且分享的產品,才能獲得眾包以及整個網路的規模化優勢,這個優勢包括宣傳推廣優勢(規則分享必然帶動更多人使用同樣的採集產品)、規則質量優勢(分享的過程中會逐步發現優質的規則,劣質的會逐步淘汰)、渠道優勢(數據服務商、代理商可以提供更多的渠道,他們也會具備更高的可控度,不過分依賴產品提供者定製的規則,可以自己編寫和出售)。

本文本來想寫更詳細的數據採集行業調研的,不過受限於今年我自身產品工作太忙的原因,只好年底趕工出來這篇文章,附上一些導圖,如果想要xmind源文件,可以先加我的群和我混熟了(笑)。

2018年展望

2018年是AI人工智慧爆發的一年,或者說繼續爆發的一年。首先AI技術已經逐步開始在細分領域應用化並體現出較好的效果,但是仍然不能把它想得真的「智能」,它只能實現一部分的智能,並且更適合於代替低級且繁瑣的人工事物。

AI在數據採集行業的主要應用可以是以下這些方面:

  • 自動化採集模板配置(通過統計規律,解決大部分規範頁面的採集是可行的);
  • 動態詞庫維護(通過海量網路數據,聯繫前後文情景,可以維護詞庫並定義新詞的詞性和可能的語義);
  • 文本分類(分類可以是情感正負面,也可以是行業、內容、地區、事件、人物、機構等等,需要通過大量訓練才能提高精度);
  • 文本聚類和趨勢預測,聚類比較容易,有很多演算法和邏輯。預測比較難,涉及數據較多,並且準確性是不確定的,單純靠數學演算法並不適合網路那麼多種類的數據,還是需要依靠模型訓練逐步得到細分領域的模型,再擴展;
  • 文本、多媒體(視頻、圖片、音頻)的結構化提取,當數據採集已經不是大問題的時候,數據的提取就成了AI的重頭戲了,因為這年頭誰也不會傻到覺得靠正則表達式就能搞定一切了,結構太複雜了;多媒體數據的識別和結構化提取也是複雜工程,目前還沒有做得特別好的公司,因為不可預知性太多,但是可以極大地替代人工,這也是它的價值點所在。

2018年,數據行業有新的機會和機遇,當傳統的急功近利型的數據需求逐步消失,數據產業長遠發展的趨勢和方向會逐步明確,尋找的過程也是這個行業從業者的另一種樂趣。一些公司已經看到或享受到這些價值,比如隨著AI的興起,對數據,尤其是高質量標註過的數據的需求越來越多,購買這類數據的公司也越來越多。首先基本的深度學習都需要低雜訊的大量標註化數據,強化學習和遷移學習雖然可以減少數據量需求,但是這兩個技術目前並沒有那麼靠譜,而且如果本身深度學習建立的模型質量就很差的情況下,其他的模型也不好強化和遷移,這是一個整體的過程。所以在可預見的2018年,數據的需求仍然是增長和爆發的,就看如何抓住機會和瞄準某些領域突破了。

下面是喜聞樂見的批鬥環節:(大佬們不要打我臉,可以打我PP……)

  • 火車頭採集……這些年你的更新就像擠牙膏,別學因特爾啊,因特爾第八代CPU還被形容為一屁股坐在了牙膏上,期望你們明年也來個大的更新!
  • 八爪魚採集……你的雲採集需要狠狠加強了,單機越來越好用,雲採集越來越被比沒了這是腫么回事?另外微圖的操作我還是不習慣,我更接受FineBI、Tableau、BDP的操作。
  • 神箭手……吳桐兄……我不知道你們瞄準B還是瞄準C的用戶,想把什麼都做成標準化是挺好,但是高凈值用戶買的是服務,並不是一個介面就能滿足。但是我看好你們!
  • 集搜客……能不能把產品里的一些名字好好改改?我用起來超級頭疼……從內心抗拒……
  • 造數科技……把自定義xpath加進來行么……光靠點擊很多時候搞不定我需要採集的複雜頁面,有些數據還需要合併,有的詳情頁里還帶分頁,頁面結構複雜後很多搞不定也是很痛苦的事情……
  • 瑞雪採集雲……崔哥,新興的產品確實不容易,一定找準定位。定位爬蟲研發就要瞄準眾包;定為中小企業+C端就瞄準直接將數據送到用戶嘴邊;瞄準大企業就直接提供數據服務並且將數據儘可能復用。咱們不能繼續犯想做成產品,結果不停地在項目中內耗的問題,老闆的耐心往往比想像中還要低……

參考資料:

造數科技獲千萬級pre-A輪融資,白澤資本擔任獨家財務顧問 | 白澤融資捷報www.sohu.com

【分享】衢州青年黃震昕,厲害了!曾被李開複寫入書中,創業成果將被編入人教版高中教材www.sohu.com圖標【獨家】天使輪獲數百萬投資,神箭手從爬蟲切入構建大數據應用開發平台www.toutiao.com

打造數據交易平台,「發源地」認為自建SaaS引擎會是有效做法36kr.com圖標作為基礎服務的數據採集,發展到哪個階段了?36kr.com圖標寫於八爪魚五周年:行百里者半於九十 - 八爪魚採集器www.bazhuayu.com圖標人工智慧將會如何影響人類的職業?這裡有 11 個趨勢預測www.qdaily.com圖標

廣告時間:

兔哥數據極客俱樂部 QQ群號:462346024

兔哥的WP博客:www.geekerlee.com

兔哥的微信群:

公開群

(加QQ群後可以找我加入)

數據圈子核心微信群

(不公開加入,需要熟悉和邀請,目前群內包括各個數據採集行業公司的CEO CTO COO,相關產業的公司負責人,谷歌出身演算法大牛等)

!!!最重要的廣告時間!!!

兔哥的數據採集圈子交流會一月份舉辦春節前的最後一場,不求人多,只把圈子裡朋友聚在一起,分享乾貨,減少廢話!具體時間和地點另行通知,北京地區的朋友們,不要放過我!(請客喝咖啡)

推薦閱讀:

淺談一下最近使用八爪魚採集器遇到的坑(還有對比其他採集軟體和爬蟲)
知乎上的用戶評論數據如何用八爪魚獲取?

TAG:数据采集 |