觀數科技李科:解決Hadoop應用防護問題,潛在市場規模百億級 | 愛分析訪談
調研 | 李喆
撰寫 | 李喆
隨著Hadoop分散式技術的滲透率不斷提升,產生了很多新的需求,安全就是其中之一。
當越來越多大型企業將生產系統運行在Hadoop集群上,合規性需求愈發明顯,需要對整套系統進行4A統一安全管理(認證、賬戶、授權、審計)。然而Sentry等開源工具在這方面相對薄弱,於是出現了針對Hadoop技術架構提供安全解決方案的廠商,觀數科技就是其中之一。
觀數科技成立於2015年,產品主要由網管代理Gateway、管理後台Admin、插件三部分組成。
網管代理Gateway等於在物理隔離區和公共區有一個橋樑,分析師必須通過身份驗證後才能提交相關數據或分析任務;管理後台Admin主要配置相應的用戶和許可權,採取圖形界面,不需要進行代碼級操作;插件主要是對用戶資源設置不同的許可權。
三個部分合在一起,形成一套完整的Hadoop安全解決方案。
因為Hadoop仍處於發展早期,主要在金融、運營商領域有大量應用,因此,觀數科技主要瞄準了這兩個市場,重點服務運營商省級分公司和股份制銀行,在多家公司進行POC測試。
從國外來看,Hadoop安全市場同樣處於早期階段,這個領域的代表公司BlueTalon2016年8月剛剛完成1600萬美金的A輪融資,未來這部分市場規模應該與傳統資料庫審計市場相當。但現階段主要是合規性需求,這會導致整個市場相對分散,集中度很難提升。
近期,愛分析對觀數科技創始人李科進行訪談,他對觀數科技的創業初衷、業務模式以及未來戰略,以及他對未來市場空間的判斷,現將部分內容分享。
解決Hadoop應用防護問題
愛分析:Hadoop發展到現在也就十年時間,國內起步更晚,觀數科技為什麼考慮從Hadoop這個方向入手去做安全?
李科:這跟我自己從業經驗有關係,以前我是做主機安全, 當時做的產品主要是針對操作系統,比如Windows、Linux,這些操作系統的單體伺服器面臨的安全問題。
做了十年以後我發現一個趨勢,甲方的資金投向已經開始轉向雲計算、虛擬化,很少有人再去買小型機。單體的伺服器,由於硬體的瓶頸已經到性能瓶頸。
當時選方向的時候,一條是虛擬化的,像OpenStack,它解決是一個結構化的問題。這個方向的競爭比較多,一些大廠都進來了,比如說阿里、UCloud。
我們就看了另外一個方向,解決性能問題,就是把多個機器變成一個機器來使用、分散式的架構,正好趕上國內大數據的風口,我們發現Hadoop是一個事實性的主流產品。
特別是經過十年發展,Hadoop的生態建得非常完善。對比安卓,同樣在不是很完善情況下還能發展那麼好,就是因為它的生態體系比較完善。當積累大量應用的時候,作為一個核心的底層框架是大家都認可的。即使有一個新技術比他效率更高,那也很難淘汰掉,因為它是生態存在,所以我們就選擇這條路。
國內專註於這一塊的廠商應該說沒有,很多發行版等等解決方案提供廠商,都是拿一些開源的項目做集成,產品化做的很差。我覺得這是一個市場空白點;同時,我們又去看了國外的一些廠商,像BlueTalon、Zettaset,都是專門從事Hadoop這個領域的安全方向。
所以我們認為這個模式在國外被證明是有市場的,國內又正好是空白,加上我們原來做十幾年主機加固的這種理念以及技術,我們覺得在分散式上去把它落地是很有可能的。
愛分析:這個產品主要為客戶解決了哪些需求?
李科:從Hadoop這個產品立項開始,它解決性能問題,就沒有過多考慮安全,所以Hadoop的認證方式本來就是一個非常簡單方式,他沒有用戶名和密碼的概念。所有的用戶只要埠相連,就可以直接讀寫數據。
因此,首先我們認為最基本的功能就是分散式的4A是要完成的,就是賬戶、授權、認證和審計,這是最基本的四要素。在傳統IT架構里這四點是必須要達到,如果說系統賬戶認證體系都沒有,那很顯然它不安全,而Hadoop沒有這些,所以我們第一個踩的點就是先把4A完整的實現。
第二個,很多用戶把Hadoop部署在內網,不會直接對外,這種情況下會造成一個很大的問題。分析師很難直接接觸到數據,往往是自己編寫了一堆MapReduce分析腳本,交給網管,網管用U盤方式拷到內網裡面,在內網做運算,再把結果拷出來,中間的溝通環節是非常消耗成本。
還有一個問題,分析師的提交後,如果網管很忙,直接扔到集群裡面跑任務上報錯了,不能夠及時地把錯誤信息反饋給分析師的。這種護城河架構是非常影響生產效率。
所以,我們在隔離區和分析師之間,做了一個叫GateWay安全代理。分析師原來是不能夠進到內網,但是我把內網的Hbase、Hive等分析功能,全部代理在中間環節。分析師可以直接登錄到網關去做分析,網關本來就有4A,在網關上做認證、授權、審計。
此外,任務的安全檢查也是個需求。雖然說有物理隔離,但分析師寫的分析腳本,是需要去調用很多資源測試,如果寫的腳本有問題,網管沒有檢查出來,破壞性的操作就已經發生了。
愛分析:所以,GateWay是替代原來的防火牆?
李科:對,主體是軟體,我們也提供硬體的形式。
愛分析:Oracle等傳統IT架構中有類似的產品?
李科:我們做的產品是從傳統資料庫演變到分散式架構里的,需求是一樣的,採用的技術不同。
愛分析:提供Hadoop發行版的公司也會做這部分業務?
李科:有一些類似的功能。開源組件裡面有一些比較優秀的項目,如Sentry、Ranger,這些開源組件和我們的區別主要有:
第一,我們在產品化程度做的可能更好一些。開源組件的界面不是特別友好,改很多配置文件,需要代碼級操作,我們整體是圖形界面的功能。
第二,我們完全是自主核心技術的產品,從合規性上講,我們在等級保護測評等方面更符合國內標準。
另外,剛才我說的這種來自業務的需求,開源組件也是沒有的。
定位運營商和金融行業客戶
愛分析:現在定位客群有哪些?
李科:雖然安全是個普適性很強的需求,但是從行業應用的角度來說,我們看到的兩個行業是Hadoop技術發展和使用比較成熟的。一個是金融行業,銀行、保險等;第二是運營商。
愛分析:這是怎麼判斷的?
李科:運營商因為積累了很多的用戶行為數據,他們需要做DPI分析、精準營銷、用戶深度需求挖掘。他們底層用Hadoop已經有五六年了,而且運營商比較大的集群已經達到兩三千台的規模。我們現在接觸的股份制銀行,基本上都會有一個大數據部門用Hadoop來做分析。
所以,我們不需要花時間去教育市場,它們也能很迅速地提出自己的在安全問題和風險上的要求。
愛分析:這個產品是如何定價的?與哪些因素有關?
李科:第一個是集群規模,我們產品前期投入的成本其實並不高,一整套管理中心客單價在三四十萬,這是基礎設施建設。更多收費來自後期運營,因為我們是一種運營模式,按節點數每年的授權費來收取。
愛分析:前期部署安裝大概需要多長時間?
李科:部署安裝基本一天足夠,但部署完我們要給用戶做培訓,讓用戶知道怎麼去配規則,一般情況下一兩天基本上就完成了,也要看用戶的業務複雜度。
愛分析:觀數科技的這個產品會佔到整個Hadoop基礎投入比例大概會是多少?
李科:我們看到其他Hadoop發行版廠商的報價,一個節點的建設成本,從硬體到軟體大概是20萬一個,我們切的是其中5%。
愛分析:現在很多客戶搭建Hadoop集群都用的開源版本,基於Hadoop安全的產品客戶是否會接受?
李科:分階段,很多公司在最開始嘗試建大數據集群的時候,需要有一個了解學習的過程,這個過程大家付費意願是不強。我們剛才指的這兩個行業已經過了學習和認知的過程,所以對於商業版的產品和服務,那隻要需求能夠滿足,它們是有付費意願。有些行業的數據與個人隱私關係不是特別大,它們就會採用開源版。
愛分析:一個運營商的數據中心大概會有多少節點?
李科:各省差別比較大,有南北差異。北方相對滯後一些,一般40-50個節點,南方省一般有200-300個節點。
愛分析:那股份制銀行一般有多少個節點?
李科:200-300個節點比較常見。
潛在市場規模數十億
愛分析:從定位上,觀數科技的定位主要是與原來防火牆一致,屬於邊界安全?
李科:目前來看,可以放在邊界安全里,但是我們解決的並不僅僅是邊界的問題,更多的是訪問控制。就像WAF和防火牆都是在邊界上,但是防火牆解決是網路層的問題,WAF解決的基於Http協議上所發生的訪問控制,更多是識別你協議裡面的風險。
愛分析:整個安全市場盤子不大,觀數科技又是切的比較細分領域,未來市場空間是怎麼考慮的?
李科:主要還是看增量吧,我覺得當前可以看資料庫審計的市場,去年幾個廠商在這部分收入加起來有20-30億,所以我覺得同樣的在大數據領域,幾十億市場是存在的。
從每年爆發安全事件以及國家的重視程度,我們認為未來三年這個領域有望變成一個百億級市場。
愛分析:這個市場未來集中度如何?
李科:比較難集中起來,每個客戶的需求都不一樣,行業有行業的需求,業務部門有業務部門的需求,很難做到硬體防火牆這種集中度。即便是標準統一,也不可能廠家統一,不像C端有可能出現大集中。
每一個廠商的銷售渠道和行業背景、關係是不一樣,不一定小公司就做不了業務,所以很難出現集中在某一家做的非常大。
愛分析:國外是否存在合適的對標公司?
李科:和我們最像就是BlueTalon,這算是直接對標。
愛分析是一家專註創新領域的獨立投研機構,研究領域包括新金融、企業服務、人工智慧、教育科技、汽車出行和新零售等。關注愛分析公眾號ifenxicom,及時獲取重要信息。
添加愛分析群小秘微信(ID:ifenxi419)即刻加入愛分析行業討論群。
推薦閱讀:
※大數據2016年大事記
※穩定和性能如何兼顧?58大數據平台的技術演進與實踐
※請問有哪些關於大數據以及hadoop好的學習課程?
※數據之路(Hadoop)我該如何打好基礎?
※hadoop web管理Hue,Ambari 和CM 的區別是什麼?
TAG:Hadoop |