天雲大數據,如何在Hadoop基礎設施上玩出人工智慧新花樣
指導 | 凱文
調研 | 李喆 關蕾 田群
撰寫 | 田群
摘要:傳統Hadoop領域,已經是群雄並起,競爭激烈。如果不能搭建Hadoop平台,普通大數據公司就無立錐之地了。但與只用Hadoop進行事後的數據分析處理不同,天雲大數據利用OLTP引擎實現了銀行的高並發事物處理。除此之外,一些新的名詞,複雜網路、AI基礎設施統統都被用在了Hadoop裡面。那麼,這家企業是如何打造與眾不同的呢?
時至2017年,對於涉足大數據業務的企業,搭建一套方便、靈活的Hadoop平台已經不是一件難事。Cloudera、Apache等廠商,幫助企業大幅降低了大數據業務的進入門檻。
不過,大數據平台應用最多的是OLAP(聯機分析處理)業務,能夠對TB、PB級別的多維數據進行關聯分析和數據挖掘應用,但是對於OLTP(聯機事務處理)業務來講,一般的Hadoop平台就顯得力不從心了。
2017年7月在北京舉辦的Strata Data Conference會議上,天雲大數據研發總監喬旺龍做了有關《Hadoop上的OLTP》的報告,其中提及天雲大數據的Hubble Volmue Transaction Distributed-Engine哈勃大規模事務分散式引擎能在千億條的數據環境下實現毫秒級別的Ad-hoc業務查詢,其處理速度是採用內存計算的Impala和Spark的數百倍。
依靠技術創新,天雲大數據成長為一家立足於金融行業的大數據和AI基礎設施平台提供商。
天雲大數據創始人雷濤擁有超過20年的跨國公司技術管理經驗, 2005年入席SNIA存儲工業協會中國區技術委員會聯合主席,CCF中國計算機學會大數據專委會委員。
業務產品化率高 從大數據平台向AI基礎平台轉化
2013年,天雲大數據發布了BDP大數據平台,與傳統的Hadoop發行版不同,BDP是一個中間件平台。中間件的方式拒絕了與特定的發行版進行綁定,Hadoop各個組件之間通過restful介面互相傳遞消息。
這樣帶來的好處就是,BDP可以根據業務需要進行適應性升級,只需更改少量代碼即可實現,從而輕鬆解決版本不兼容的問題。
BDP只是一種基礎平台,帶天雲真正實現飛躍的是Hubble Volmue Transaction Distributed-Engine哈勃大規模事務分散式引擎(OLTP查詢引擎)、Hilbert Complex Network Distributed-Engine希伯複雜網路分散式引擎(圖計算複雜網路引擎)和Maxim AI(人工智慧基礎平台)三款產品。
作為密切關注國際前沿的技術先驅企業,天雲大數據在切入業界前沿和熱點上,通常快人一步。如今,OLTP on Hadoop、圖計算、AI基礎平台等概念已經火熱,而天雲大數據在內部早已經形成產品,並在商業銀行的業務系統上進行了運行和試用。
這三款產品帶給天雲最大的改變是差異化的競爭路徑。
銀行等企業生產系統的核心通常是構建在IOE平台上的OLTP業務,這部分業務恰恰是現有的大數據平台不能解決的。而哈勃大規模事務分散式引擎正滿足了銀行基礎設施去IOE和系統減負的需求,可以將80%的OLTP業務轉移到分散式平台上。
與OLTP相對應的OLAP本是Hadoop的長項,但是只有Hadoop和數據是做不了分析的,對於分析領域最關鍵的模型和演算法,老牌巨頭SAS才是該領域當之無愧的霸主。不過,對於長期在關係型資料庫領域浸潤,2014年才進入Hadoop領域的SAS來講,磨合還是需要時間的。這給天雲研發基於Hadoop 的AI基礎平台留下了時間。
複雜網路引擎和AI基礎平台這兩個新品類的產品,明顯不是來自於工程實踐的創新,而是理論創新的實踐。所以,天雲大數據技術優勢的積累離不開其博士後工作站的研發能力及其多年來公司團隊對Hadoop平台的理解和工程化能力。
立足金融行業,客戶支付能力強,但市場擴張慢
作為雲基地的孵化項目,天雲大數據初始切入的業務以運營商類客戶為主,如中國聯通的數據魔方項目、中國移動的南方基地項目等。隨著公司定位的調整,天雲大數據從運營商類業務轉到專做金融業務為主,先後承接了中國人民銀行、九鼎、信誠、泰康人壽、光大銀行、興業銀行等銀行、保險、交易所相關的業務。
通過業務領域調整,天雲的角色也從傳統Hadoop平台集成商向基礎軟體應用商轉變。從競爭對手上看,前一階段還是Hadoop平台搭建類廠商,而後期競標對手多為矽谷的Neo4j和TigerGraph等圖資料庫高新技術企業。
由此,天雲大數據業務中心也從搭建平台,轉向圖資料庫、分散式OLTP業務及AI智能平台。
得益於金融行業客戶較強的支付能力,天雲大數據目前的客單價一般都能超過100萬元,與國內傳統hadoop廠商相比,相對可觀。但目前看,由於客單價較高,項目較少,其規模擴張速度較慢,這將影響其長期發展。
競爭轉移,新興市場潛力大,營收可預期
天雲的產品並不屬於傳統的數據倉庫市場,而是進入了OLTP、圖數據和AI三個細分小市場。所以,它避免了與目前競爭最為激烈的傳統Hadoop基礎軟體和數據倉庫廠商的直接碰撞。只不過還需等待新興市場的培育,以便釋放積累的市場能量。
從市場格局看,圖數據和AI平台是目前天雲最主要的目標市場。圖資料庫市場當前主要參與者Neo4j和TigherGraph,雖然營收規模之和才千萬級美金級別,但從Linkedin、支付寶和國家電網等客群對圖數據的使用需求之強烈判斷,未來市場潛力巨大。
在AI平台領域,目前主要是百度天智、阿里數加等公有雲AI平台,在私有化部署的AI平台里,其主要競爭對手為在高級預測和分析領域SAS和IBM Spss等企業產品。SAS憑藉32億美金的年收入和超過100億美金的估值,成為40年金融業屹立不倒的常青樹。隨著大數據的廣泛應用,基於人工智慧的高級預測和分析,預計還會有指數級的增長。
圖資料庫和AI平台業務的爆髮指日可待,2017年天雲大數據營收增速預計超過200%,這緩解了前三年市場擴展緩慢的焦慮。在客戶渠道暢通的情況下,預計天雲大數據2018年還將保持80%-100%增速。
評價模型
愛分析從應用場景、獲客、客群、產品、技術五個維度對天雲大數據作出評價。
技術層面,天雲大數據擁有成熟的Hadoop中間件平台,具有搭建大數據業務平台能力;在複雜網路和AI數據分析領域積累多,在國內具有先發優勢。
產品層面,其Hadoop平台、複雜網路引擎和AI平台等業務的產品化程度高,能夠實現快速複製。
客群層面,天雲大數據的客群主要在金融領域,市場規模大,客戶支付能力強。
獲客能力層面,從天雲大數據近3年發展速度看,其獲客能力一般。
生態層面,天雲大數據作為初創公司,還未搭建完整的生態鏈和客戶關係,在生態環境里還處於劣勢地位。
近日,愛分析對天雲大數據CEO雷濤進行了訪談,現摘取部分內容如下。
愛分析:天雲大數據與一般的Hadoop平台公司有明顯差別,您對Hadoop是怎樣理解的?
雷濤:2012年以前,我們主要是在使用Hadoop技術階段,在別人不會用時,我們率先使用了。當時,我們做的多是企業級大型運營商項目,必須進行很多改造和優化。我們在Hbase上做了大量的資料庫回滾和資料庫審計操作,並且做了有一些新特性,像master sever 切換等管理功能。
但到了2012年,CDH 3.0版本發布對我們是重大的打擊,那個版本覆蓋了我們很多功能。面對繼續在舊版本上開發,還是發行新版本的產品兩個選擇,我們就出現了一段時間混亂。
後來,我們選擇在2013年徹底重構產品。我們把平台中自己的套件拆分出來,做成了一個中間件,所以我們不是發行版。我們的中間件下層對CDH、Apache和Hortworks進行了混配,通過600多個restful介面進行消息互通,拒絕了發行版的鎖定和綁定。
這帶來了幾個便利,第一中間件與版本無關,可以持續升級。對於團隊來講,不用每一次大版本升級時做代碼review,這就拆分了功能研發團隊和Hadoop研發團隊。第二,這還帶了很多開放性,表現為對集群的多樣性支持。例如在九鼎,其原有搭建了Apache集群,再裝套其他集群就需要推到重來,這是難以實現的。由於我們採用開放介面,我在統一數據和資源管理下,允許多集群管理。第三,開放之後的產品可以融合更多項目,我們可以在差異性的環境中做功能套件的融合。
愛分析:天雲大數據業務範圍涉及圖數據、AI、和Hadoop on OLTP幾塊領域,那麼現階段的主要競爭對手是誰?
雷濤:我們PK掉的是Neo4j、graphsql這些矽谷的新銳公司。
愛分析:天雲大數據從運營商轉到金融領域的契機是什麼?
雷濤:天雲大數據註冊在2013年,實際上是2015年才正式成立的,但是我們創始團隊在2010年雲基地的時候,就在一起了。我們早期做了很多運營商業務,如聯通的數據魔方、移動總部、南方基地等。但獨立以後,我們做了差異化的區分,為了避免同業競爭,我們聚焦在金融領域。
由於我們對業務做的比較深入,第一個單就進入一家商業銀行的核心系統,一個OLTP線交易系統。這個業務客戶市場比較少,但是門檻很高,客戶質量都很好。這些客戶包括中國人民銀行、興業銀行、泰康人壽、信誠人壽、九鼎、京東等。
愛分析:天雲大數據是怎樣進入AI領域的?
雷濤:我們在2011年南方基地的項目就開始使用機器學習技術了。那時我們招募了大量的數據科學人才,並建立了自己的博士後工作站。當時我們沉澱了大量的工具包,像NLP、神經網路、時間序列等等。
我們在銀行的項目發現一個問題,銀行要求Hadoop與SaS對接,但是對接了SAS後,後者性能又不能滿足要求,我們只好在Hadoop上重新寫分散式程序。
2016年,我們在之前工作的基礎上直接打包了AI平台,也拿到第一個AI基礎設施800萬的訂單。我們正好踩到了AI的PaaS化這個時點,基本跟TensorFlow同步推出。我們融合了Torch、Caffee、TensorFlow和我們自己的大量演算法,可以讓客戶在Online集群之上直接跑各種演算法,在演算法和數據之間我們做了非常好的融合,讓演算法能夠充分使用。
我們現在有兩種方式,一種是Free coding,直接調用模型,調節參數;另一種在Notebook環境,使用Python 編寫新演算法。這大規模提高了模型的生成速度和效率,並且大大降低了人才依賴。
我們發現,我們平台交付給客戶後,數據對模型的選擇發揮了巨大價值,一個分類器將隨機森林、邏輯回歸和深度學習全跑一遍,然後選擇AUC曲線最好的模型。這意味著以前半年才能完成的事情,現在只需要5分鐘就能完成。使用者的試錯成本大大降低了,憑藉強大的計算能力,銀行就可以實現模型的規模化生產。
愛分析:對於OLTP業務來講,一般的銀行交易量有限,中小型城商行Oracle就可以實現,少量大型銀行MPP也可以實現,大規模的高並發需求除了BAT等少量的互聯網企業並看不到很大的需求,為什麼還需要在Hadoop上做OLTP呢?
雷濤:我們現在看到的現象是,出現了很多銀行接入互聯網的項目,現在銀行的服務界面已經不僅僅是櫃員了,銀行手機端內容越來越豐富,在全業務領域承載的越來越多,滲透率越來越高。手機端的銀行交易帶來城商行大量大規模高並發需求,這個需求既有大量對Oracle和MPP的需求,同時也帶來對Hadoop on OLTP的需求。
愛分析:天雲大數據目前採用什麼樣的方式開拓市場?
雷濤:現在一直在替代一些原有銀行里的業務形態,最近幾個項目都是在翻競爭對手的客戶。我們看到一個趨勢,競爭對手在依靠市場增量拿新單,不斷邁入新市場,而我們從1到3到20這種倍率的增長,全是在一兩個核心客戶完成的。我們的新客戶都是競爭對手的客戶切入我們的領域的,所以我們在垂直增長。
我們相信在早期市場環境下,產品的市場價值必須做得足夠厚才行,而不是只做開源部署的調度管理。否則,你在開拓新市場的時候,你的市場也會被其他企業吃掉。在目前分散式的市場環境里,企業必須沉的足夠深,有自己的積澱,找到適合自己的位置,才能體現市場價值。
愛分析:產品的交付形式是什麼的,是賣平台呢,還是按照工具包進行銷售?
雷濤:我們在項目邊界上是這樣的,首先我們之前沒有平台,只能提供工程服務。例如我們跟城商行進行交易時,他們一般會按照工程服務進行選擇,不會考慮到平台的問題。
對於大型銀行來講,他們會招兩種平台,一個是先招個平台標,建立基礎設施。招完平台標以後,在平台之上會按照數據產品進行招標,每個數據產品就是我們做好的內容,這些數據產品可以交給業務部門直接使用。
以前,人工智慧和機器學習在銀行裡面就是SaaS+服務,生產出來後放到決策引擎中使用,是靜態的;現在是平台加數據產品,生產出來的東西直接在平台運行,它不再是靜態的,而是動態的一個過程。
愛分析是一家專註創新領域的獨立投研機構,研究領域包括新金融、企業服務、人工智慧、教育科技、汽車出行和新零售等。關注愛分析公眾號ifenxicom,及時獲取重要信息。
添加愛分析群小秘微信(ID:ifenxi419)即刻加入愛分析行業討論群。
推薦閱讀:
TAG:大数据 |