標籤:

九章雲極方磊:大數據時代,數據科學家也需要協作平台 | 愛分析訪談

調研 | 李喆

撰寫 | 李喆

當前,大數據技術正與行業應用融合,隨著大數據滲透到各行各業,企業對大數據人才的需求變得異常旺盛。

根據麥肯錫的數據,2018年大數據科學家的缺口在14至19萬之間,對懂得利用大數據決策的分析師和經理崗位缺口達到150萬。因此,數據科學家和數據工程師在已經成為一個新的工種,中大型企業都將建立自己的大數據分析團隊。

程序員有GitHub,設計師有AutoCAD,普通員工有Slack,數據科學家和數據工程師也應該有自己的協作辦公平台,幫助他們更好地建模分析,同時讓管理層更好地認知到每個人的進展。

九章雲極創始人、CEO方磊曾在微軟Bing工作多年,他發現Bing內部800多個數據工程師在一個名為Aether的系統上協作,整個團隊運轉井然有序,不會因為人員變動使得研發成果流失。

於是,方磊決定回國建立這樣一個大數據基礎平台服務企業客戶,2013年,北京九章雲極科技有限公司於北京中關村成立。

由於大數據平台這個業務本身過於超前,連Gartner都是2017年才第一次公布數據科學平台(Data Science Platforms)的魔力象限,當時國內大數據行業剛剛起步,大部分客戶還處於理解大數據概念階段,遑論建立數據分析團隊,對這樣的平台價值一無所知。因此,一開始客戶的接受程度並不高。

方磊帶領九章雲極進行了迅速的調整。

客戶服務方面,九章雲極由原本為公有雲客戶提供PaaS服務,轉變成為向金融、旅遊、教育、交通等行業提供私有部署服務,由一個輕量級產品變成一個完整的大數據解決方案。金融行業如銀行、保險等是九章雲極主要服務對象,這類客戶基本已經組建獨立的大數據部門,當其數據分析團隊超過10人時,協作辦公和管理的需求就會產生,更容易接受九章雲極的產品。

業務上,九章雲極不再只是提供平台,而是基於平台開發了大量行業應用模塊,同時增加了偏前端產品,為客戶提供實時處理系統,使後端模型能夠對接交易環節。

因為限於自身IT能力較弱,中國企業客戶更願意接受端到端的解決方案,單純平台型產品很難促使他們付費。開發行業應用模塊的目的主要是證明這個平台的價值,同時這類行業模塊有助於提升客單價。

而實時處理系統則是進一步與客戶業務結合,主要是替代原本數據倉庫的部分業務,彌補傳統數據倉庫處理數據緩慢的不足。

九章雲極依賴其數據科學平台建立壁壘,而並非僅僅依靠技術建立護城河。先發優勢使得九章雲極在前期可以獲取不少行業客戶,基於這個平台可以沉澱大量行業應用場景,這些場景可以被封裝成產品,成為九章雲極未來主要收入來源。

近期,愛分析對方磊進行了訪談,他闡述了九章雲極現有的業務模式、未來戰略規劃,以及他對大數據基礎平台領域的看法,現將精彩內容分享。

效仿Bing,為數據科學家提供協作平台

愛分析:創建九章雲極的初衷是什麼?

方磊:博士畢業後,我先去了微軟的Azure,後來換到了Bing。我在Bing先後擔任過數據科學家與數據工程師。當時,微軟內部系統Aether給了我很大啟發。Bing的800多個數據工程師可在同一個平台同時進行各種數據分析、提交任務等工作,這個平台含一萬多個模塊和幾十萬個項目,並具有可管理性、可高速運行、以及資源調配、提高工作效率等諸多功能。

我決定自己設計這樣一個超大協作運行管理平台,提供給其他的企業使用,這是我創業的初衷。當時沒有特別明確的定義,今年Gartner把它稱為數據科學平台(Data Science Platform)。數據科學家現在已經成為一個工種,需要一套為這些人服務的軟體,類似GitHub、Slack。

愛分析:這是個很有意思的方向,具體是如何實現呢?

方磊:2013年,九章雲極成立,2014年,這個大數據平台逐漸步入正軌。現階段我們的產品是DataCanvas智能數據平台,集成Hadoop生態圈開源產品,在此基礎上開發了APS和EDS,分別是DataCanvas APS(自助式大數據分析平台)和DataCanvas EDS(大數據時代的數據倉庫)。APS是工作流分析平台,通過對已有模塊的組合,快速構建和實現用戶的分析場景。EDS是超融合架構可擴展的彈性分散式數據倉庫,實現數據的存儲,查詢和分散式計算。

愛分析:早期的DataCanvas數據平台對國內客戶有點超前,最初是如何獲取客戶的?

方磊:我們早期的客戶是某城商行,當地所有城商行共用一個IT中心,DataCanvas智能數據平台滿足了領導層的KPI考核需求,研究成果模塊化,根據需求提交項目運行,使數據分析資產可量化。

愛分析:DataCanvas智能數據平台的價值除了體現在協作辦公,還有哪些方面?

方磊:基本功能是協助數據科學家更好地開展工作,並且DataCanvas智能數據平台是具有積累效應的。這個積累效應在內容層面是指數據科學家的工作模塊和項目等方面,比如說分析客戶流失、預測性維護等,對於行業客戶而言價值巨大。

所以,最初的DataCanvas智能數據平台只是個工具,積累效應使其逐漸演變成全能的數據分析平台,能為企業用戶提供端到端的大數據解決方案。

愛分析:DataCanvas智能數據平台是不是類似BI產品?

方磊:BI可能是更輕量型的產品,我們的產品會更重,更全面。DataCanvas智能數據平台除了能看到BI看到的分析結果,還可以看到Dashboard。假設一個所有存款沉澱分析的應用場景,從不同數倉裡面抓取了很多報表,這其中每一步都可以看到,包括這個分析流程是什麼時間運行的,運行了哪些數據,產生的結果被誰使用了……如此,領導層可視可控、透明地管理整個分析平台。當然,如果最終還是需要調用結果畫圖,DataCanvas智能數據平台是可以跟這些Tableau等BI工具銜接的,並不是取代Tableau。

愛分析:現在多大規模的團隊才需要使用DataCanvas智能數據平台?

方磊:至少十個人的團隊規模才會明顯會感到痛點,需要購買我們的DataCanvas智能數據平台。

本質是標準化產品,產品化率會逐步提升

愛分析:DataCanvas數據平台的定製化部分會更多一些么?

方磊:我們的定製化主要是數據銜接、數據倉庫如何打通等。現階段定製化較多,產品化率還有待提升,另外跟那麼多數據環境打通是需要更多其他工作協調,尤其是行業聚焦更重要。

愛分析:底層數據打通在不同行業之間有很大差別么?

方磊:差別不大,都是大數據技術,但是基於每個行業都有些不同特性,且企業環境有中間件,有不同的供應商,因此針對不同行業是需要去符合其不同的規範。理論上而言這種差別是可以窮盡的,當深入專註某一個行業,這種差別基本可以忽略。

以業務需求、業務創新為導向拓展產品線,現階段仍以節點收費

愛分析:除DataCanvas智能數據平台之外,九章雲極還有在做其他產品么?

方磊:有的。企業通過數據發現很多規律,研發很多模型,這是後端。企業需要調用這些模型,是在前端。拿這些模型來打分,請求進來,瞬間就返回,這是個在線場景。我們自己做厚一點,就是往前端走。我們做出模型後可以發布到前端,同時,前端是有套系統去使用這個模型,呈現出來是個大數據實時系統。

愛分析:本質上九章雲極是想做一個很薄的業務,但為了獲取客戶而把產品做厚,擴展產品線是如何考慮方向的?

方磊:我們以業務需求以及業務創新為導向來考慮的。一方面,我們發現實時性是原先數倉無法實現的,另一方面,後端數據科學平台上有很多機器學習的模塊,這是原本做統計報表的數倉實現不了的。只有做到創新,才能體現價值,才能更容易拿下客戶。

愛分析:現在DataCanvas智能數據平台是如何向客戶收費的?

方磊:現在還是按照結點個數來賣,差不多一個節點7-8萬,最後平均客單價會超過一百萬。這裡面有個非常掙錢的業務,就是裡面內置的分析主題,客戶願意購買分析主題,比他們請外包公司要便宜很多。未來我們的業務更加成熟,會調整成Tableau那種模式,計算能力加用戶的形式,有個基準伺服器收費,再加上賬號個數。

單靠技術難以形成壁壘,資料庫廠商必須建立生態圈

愛分析:最近出來不少做資料庫的廠商,您對這類廠商未來發展前景如何?

方磊:我覺得他們挺厲害的,中國終於開始有廠商做這樣的事情了。但這是個高風險的事情,因為每個資料庫都是生態圈。如果只是做個辦公軟體,不需要有生態圈就可以拿下客戶,但資料庫不是這樣的,選了哪家廠商的資料庫就綁定在這家廠商上了,如果產品不是很成熟,企業是不敢選的。資料庫廠商必須要建立一個生態圈,有足夠多客戶選用這個產品才能發展起來。因此,資料庫是以十年為單位把產品養成的,類似於編程語言,這是個比較長期的事情,競爭壓力比較大。

愛分析:您認為,做Hadoop相關業務的公司未來有機會做大么?

方磊:可能純做Hadoop發行版機會不大了,但做更泛一點的Hadoop服務商是很有有前景的,比如說,公司有大規模團隊幫客戶做維護,或者找到更好地具體應用場景。

愛分析:這樣看來,技術上的一點領先優勢,未來很難形成長期的壁壘?

方磊:除非是形成一個生態圈,否則挺難形成壁壘的。特別是國內廠商更多還是跟隨國外的技術,目前只是單點創新,並未實現全面創新。

愛分析是一家專註創新領域的獨立投研機構,研究領域包括新金融、企業服務、人工智慧、教育科技、汽車出行和新零售等。關注愛分析公眾號ifenxicom,及時獲取重要信息。

添加愛分析群小秘微信(ID:ifenxi502)即刻加入愛分析行業討論群。


推薦閱讀:

Larry 怒懟 亞馬遜
攜程機票大數據架構最佳實踐
1.7號億級多CampaignPDB及移動ID講座【乾貨摘要】?

TAG:大数据 |