大數據一體機的實質是什麼?大數據分析領域這種一體機真的有市場嗎?

oracle的exadata好像全球銷量並不高。現在國內很多廠商喊著去IOE和基礎架構國產化的口號一窩蜂推出所謂的「大數據一體機」,我對數據分析不是很了解,請問在大數據一體機的實質是什麼?大數據分析領域這種一體機真的有市場嗎?兼容多種資料庫,能夠達到從O向非O資料庫平滑過渡的技術含量很高嗎?謝謝!


1.回答問題之前概述下大數據一體機。

百度百科說道:大數據一體機是面向大數據存儲、處理、展現全環節、軟硬一體化的方案型產品。目前的大數據一體機主要有Oracle的Exadata、IBM的PureData、華為的FusionCube、浪潮的雲海、曙光的Xdata。大數據一體機有很多優勢和劣勢,優勢表現在縮短用戶系統上線時間、最大限度提高兼容性、便捷的維護;劣勢體現在更容易被廠商捆綁、相匹配軟硬體較少、擴容問題;


2.大數據一體機的實質是什麼?

個人理解,大數據一體機的實質就是圍繞大數量做的簡化,集成產生和維護數據所需的各種資源。我們對世界的認識有一種簡化機制,大數據一體機也是一種簡化;


3.大數據分析領域這種一體機真的有市場嗎?

對大數據分析領域不是非常的了解,但數據分析不也是基於大數據量所做的應用?大數據一體機最核心的也就是圍繞著大數據量,傳統的數據分析在數據量過大時很可能不再奏效,那大數據一體機很可能契合了這種需求,所以個人認為在此領域大數據一體機還是有市場的;


4.兼容多種資料庫,能夠達到從O向非O資料庫平滑過渡的技術含量很高嗎?

從O到非O平滑過渡,也就是去O,轉投其他資料庫懷抱。

去O的數據難點在於:

1.
數據一致性(看業務需求,但運營商核心系統往往有強一致性要求);

2.
複雜查詢支持;

3.
單機的Scalability;

4.Optimizer的成熟度;

大數據一體機的設計有一部分是為了兼容多種資料庫,所以向非O過渡主要難點在於把去O的難點攻破,技術含量是非常高的。想想阿里去O的艱辛過程,沒有強大的技術團隊支撐和大量的資金投入,大量使用O的場景去O是不太現實的。阿里能做的事,絕大多數公司都沒法做;


5.說點題外話,關於Exadata的銷量,題主說Oracle的Exadata好像全球銷量並不高,題主是怎麼定義高的呢?2011年6月Oracle
Exadata在全球部署超過1000台,何況現在是14年了。Exadata的銷量相比Oracle那肯定是沒法比,能用的上Exadata的公司是能用得起Oracle的公司中的鳳毛麟角。還有關於大數據的定義,什麼才能叫大數據,這也是個值得探討的問題。眾說紛紜,正是由於無法標準的定義,才湧現一大批理論超過實質的大數據概念,想想雲計算也是如此。不過現在大數據和雲計算慢慢有了清晰的發展前景了。

6.關於去O,引用一篇文章。

浙江移動信息技術部業務支撐中心副主任王曉征前段時間寫了篇文章,標題叫做《運營商去O之我見》,從多個角度分析了影響去O的因素,並給出了似對非對的對策,引用部分內容,如下:

上面分析了運營商環境下去O的各種因素,那麼我們究竟該如何是好呢?我考慮了以下一些對策。

一,沒有金剛鑽,別攬瓷器活。

去O有風險,同志需謹慎。不能被互聯網的人云山霧罩地一吹就暈,簡單照搬互聯網公司的做法,簡單粗暴地快速全面去O,很容易搬起石頭砸自己的腳。這裡沒有對互聯網公司的兄弟不敬的意思,個人以為他們很多人都是中國人的驕傲,也在干著很有意義的事業。只是,大家場景不同,還是要實事求是,因地制宜,不能脫離實際去搞大躍進。聽說某次某傳統行業技術交流,當著很多老專家的面,某著名互聯網公司的某人叫囂你們不去O就是民族的罪人,這種話就別拿出來忽悠了,大家當笑話聽聽就好。

二,如果一定要在運營商環境下去O咋辦?別怕,知己知彼,百戰不殆。

實事求是因地制宜,去O有辦法。首先,請記住我的話,我認為,在運營商環境下,去O不能簡單理解成去O的產品,而應該理解成去O的服務。為什麼?請參考第一篇的內容,你懂的。我們應該把精力花在局方和第三方Oracle技術支持力量的培養上。

某運營商當年培養出了亞太第一批OCM,為什麼今天我們就不能在技術人員培養和激勵機制上再創輝煌,再培養一批?市場上有那麼多專業的第三方合作夥伴,我們為什麼一定要把服務弔死在原廠團隊上?

全國一盤棋,是否能在技術支援體制上做文章,改變現有的各省煙囪式技術團隊的現狀,運營商內部好的甲乙方技術力量是否可以復用創造更大的效益?我們有那麼好的管理機制,某些運營商集團每層面每年都實實在在搞應急容災演練,難道我們的容災切換整體水平在業界拿不出手?這一點我估計至少部分運營商目前整體水平要高於互聯網行業!甚至我在想,能不能充分利用幾個大省較強大的技術力量,基礎技術平台的管理可以全國大區集中化管理......只要以上幾點做到位了,我相信Oracle原廠的服務不會成為我們的什麼瓶頸,根本不必拿出來說事。如果我們做不到位的話,去O換成任何一種資料庫,我們都要面臨同樣的技術保障問題,而且只會更加嚴重。逆水行舟不進則退啊。

三,拋開第二點服務之路去O不論,繼續深入下去談產品去O。

如果確實要這麼干,那麼應該從對數據的強一致性,資料庫的可擴展性,安全性要求相對不高的系統入手,逐漸積累經驗,鍛煉隊伍,逐步深入,或許有那麼一天,我們能把產品去O的手伸進我們的核心系統,但這一天應該不會馬上到來。要知道,技術掌控力遠強於我們的阿里,目前真正涉及到錢的支付寶核心系統,仍然在Oracle上!或許明年吧,阿里真能實現支付寶去O,但可以看到阿里的去O進程也是由淺入深,由外向內的。這一點值得我們借鑒。

四,產品去O,產品本身應該如何選擇。

很多人覺得奇怪,這還有什麼可以選擇的嗎?難道去O不是直接上MySQL嗎?個人以為,錯!產品的選擇不是兒戲,不能簡單抄襲,還是那句話,環境不同,別人適合的東西不一定你適合,反之亦然。

此外,選擇產品本身也可能涉及到技術路線的選擇,這是個很大的事情!現在我來深入解釋一下這一點。大家知道,MySQL和Oracle相比功能要簡單得多,很多複雜查詢不支持,數據結構很多需要轉換,SQL語法差別較大,也就是說,如果把程序從Oracle割接到MySQL,數據倒換代價不說,代碼基本上可以肯定兼容性較低,需要重寫的部分佔比應該很高了。

現實情況是,運營商對業務連續性的要求是很變態的,同時技術掌控力又是不如阿里,這種情況下,想像一下我們的系統去O會面臨什麼樣的挑戰?我們很可能要做到灰度割接(舉個例子我的一個系統按地市分成四個庫,我先去掉一個庫,後面逐步再去,以此類推......),兩種資料庫在一個系統內部的會有較長時間的並存用以觀察系統的狀態。而且,就算割接上去,我們的體制文化下誰敢保證用新的資料庫就不會長時間宕庫或者丟數據?就算合作夥伴胸脯拍腫我們都不敢。所以,必須要做到割接上去還有回頭路,這一點我們和互聯網公司比還是有一些差別的。

7.關於去O的圈內聲音

@Eygle:從實際出發,理性分析和決策,讓去IOE更具可操作性。我的理解,在未來的資料庫應用領域,應該讓各產品充分發揮其技術優勢,在各自擅長的領域發揮作用,形成一個複合的生態環境。任何不以技術和業務驅動的全盤否定都不可取。

@Joehan100:分析得很全面,阿里的去IOE, 不具備普適性,需要大幅修改應用系統的去O, 代價與風險很難控制,容易造成項目失敗。

@新疆武新:非常務實!核心技術問題不是靠喊口號可以解決的。

@電動蝸牛:是結合實際去考慮的專家吐槽文字。有意思

@綠色數據中心:去IOE不能看著熱鬧就上,還要具體問題具體分析

@XuYuanzhen:不能強行的去模仿去O,畢竟如果使用開源的關係型資料庫需要有維護代碼和二次開發經驗的團隊。

@秋風_SJQ:明白人,技術是為業務服務的,如果一味跟風追求所謂最新技術,反而忽略了業務的創新,最後也會自食其果。

8.綜上所述,個人認為大數據一體機不是噱頭,而是未來的發展趨勢;


9.除引用內容外,個人拙見,僅供參考。


參考資料:

1.解析大數據一體機

2.大數據一體機_百度百科

3.《運營商去O之我見》
浙江移動信息技術部業務支撐中心副主任 王曉征


技術只是產品以及業務的基礎,目前除了幾家寥寥可數真正掌握國內互聯網大數據的企業,對於exadata這種東西,更多的像是處於概念階段。畢竟單機費用和維護的技術和費用都不是現階段能夠很容易解決的事。
更多的是我們需要他來支持什麼產品或者業務,以及用什麼東西去填充它。
至少在現階段,國內大數據概念剛剛起步的情況下,遠觀應該是比較實際的行為。


一個可能就是IBM或者什麼大佬產業炒作的東西,好讓大家去買他們的產品。
第二個就是一個需長期研究和實踐的話題了


謝妖 ,
一體機表象是軟硬結合體,實質是傳統IT公司的轉型困難。在去IOE時代里,想用軟用一體的方式解決捆綁問題以達到分發自己軟體的目的。

大數據分析領域是否用該一體機?我不知道其他公司的情況,所以不能亂說,但我們公司做大數據的幾個部門都沒用過。

額外問一句,題主是準備代理這種產品嗎?


本質就是小型機,軟體+硬體+服務一體銷售。這個產品對政府和大型企業很合適,其中還涉及很多非技術、非成本因素。
  但是對於中小企業,例如月銷售額百萬的衣服、面膜小品牌,用得起這種解決方案嗎?
  對上面這句話標準的回答是:中小企業沒有大數據需求。的確,很多線下傳統企業不需要每天處理上T上P的數據,但有些行業天生就會大量積累數據,尤其是和網路有關的,例如淘寶上的中型電商賣家,例如手游。
  那麼這些企業怎麼搞呢?答案是租用。我記得有個小電商上雲以後,半年支出減少了20萬,這裡面不包括人工費節省(IT運維團隊減少到只有2個人頭)。
  如果說一體機這種產品有存在的價值,銷售額還有可能會上升。同意。但是如果把它描述為整個行業和市場的未來趨勢,就明顯是狡辯。
  舉個例子,大型企業和關鍵部門自建發電車間,這個需求是真的,這類產品會不斷發展。但是市場主體,99%的企業和組織,一定會選擇市政供電網路。


一、實質是什麼?
如果拔下電源,一塊塊的把一體機肢解開,你可能會發現(我沒這麼干過)它有兩三個框加上幾個獨立的刀片伺服器,框里有很多插板,每片插板上有CPU、內存,也許也有硬碟。你可能會覺得這不就是把十幾個刀片整合在一起共享電源和網路模塊嘛?我有段時間就是這麼認為的。
我也曾研究過怎樣利用低廉的硬體設備組成計算能力超強的系統,至少要解決這兩個問題:

  1. 任務分割。以搜索引擎為例,它每時每刻都要派出成百上千萬隻爬蟲去抓取整個互聯網,每隻爬蟲領一小片任務,確保任務之間不衝突、任務的聚合覆蓋完整、每小片任務要分配合理的冗餘資源,還要考慮對任務進度的跟蹤管理。再以大數據分析為例,它的每個分析任務,要被合理的分散到每一片數據單元。假設某個統計查詢要用到1T的數據,數據分散在100個刀片上,每個刀片處理10G數據,那麼相應的統計SQL,要根據每個刀片的數據分布進行重寫,必要時還要分層計算,並不是簡單的改改where條件就可以的。這過程中也許會遇到新問題,比如where條件里包含子查詢,而且子查詢的數據量也非常大,假設子查詢從1T的原始數據中查出了0.7T,這臨時數據該如何處理呢?是放在其中一個節點上進行計算還是再次打散到每個節點上?如果每個任務單元無法做到完全獨立、無法避免從其他單元協調數據,如何進行單元件的通信和數據交換呢?
  2. 數據整合。把每個單元的計算結果整合在一起,進行必要的再加工,比如排序、去重等,形成最終的結果。有可能你的系統在上一條SQL執行結束之前就提交了下一條SQL,當系統開始收到反饋結果的時候,如何識別這些零碎的反饋屬於那一個任務?如果某個計算單元出現錯誤,系統如何檢測到錯誤並及時安排其他單元補做呢?

這些還不包括Cache、通信、效率、質量,都是大規模殺傷腦細胞的問題。
而對於一體機,一旦插上電,這些問題都解決了。
所以大數據一體機本質上不僅僅是一堆硬體,而是軟硬一體化的通用大數據系統。

二、真的有市場嗎?
有。在大數據時代,市場需要這種產品。相對於傳統系統,一體機的效率和質量確實高很多倍。
誠然,業界買得起一體機的主,家裡一定有無數等著淘汰的刀片和PC伺服器。
如果用某些分散式資料庫+一堆PC伺服器、如果用類似Google File System/Hadoop的開源系統+一堆PC伺服器,確實有可能實現一些大數據處理功能,但是,

  1. 他們中絕大部分沒有搞得定這些複雜系統並提供持續運維保障的人才。
  2. 他們中絕大部分沒有時間和精力專門研發可靠並高效的通用型大數據處理系統。
  3. 一體機比一堆PC伺服器更省電、省空間、省網路設備、走線簡單等等。

大數據一體機帶來的效率和質量提升是很顯著的,而且擴展空間很大,封裝了很多複雜技術,可以說門檻很高、前景廣闊。

三、oracle的exadata好像全球銷量並不高
要真正說服用戶掏錢,確實非常困難。對於習慣了自己組裝電腦下載電影看的用戶,要怎樣說服他扔掉耗資巨大的電腦、買下整座電影院呢?

四、兼容多種資料庫,能夠達到從O向非O資料庫平滑過渡的技術含量很高嗎?
如果在性能、質量、穩定性方面沒有縮水的話,技術含量確實非常非常高,畢竟各種資料庫的優化方式是不一樣的。但是「多種」不見得是「很多種」,也不見得樣樣都精吧。如果用Oracle資料庫,可能沒有誰能和Oracle競爭;但是Oracle的強項是OLTP,對於大數據技術,一般認為是OLAP類型任務,Oracle本身並沒有資料庫技術優勢。這也許是去O的一個技術方面的優勢所在。但是別忘了,Exadata的刀片以及伺服器技術可是出自SUN的;而且在大數據一體機的架構中,數據離散化之後使Oracle在較小數據單元上得以繼續發揮它的優勢。

五、現在國內很多廠商喊著去IOE和基礎架構國產化的口號一窩蜂推出所謂的「大數據一體機」
國貨有真金,水貨也不少。吵吵民族主義,不如做好個把真實案例。只要在軟硬一體這個概念上沒什麼差錯,國產一體機也是有可能出精品的。因為技術雖然複雜,卻沒什麼特別尖端的問題。聽說浪潮和華為也都在做,他們在軟硬體方面都很有實力,我相信他們確實能做出不錯的產品,但需要市場機遇。


首先,Exadata裡面只可以安裝ORACLE資料庫,不能安裝其它資料庫,所以通過它無法去O。
其次,Exadata跟所謂的「大數據」概念關係不大,它就是一台資料庫一體機:包含一台台伺服器和存儲設備以及內部的高速交換網路,整套系統放在一個機箱里,裡面的OS和DB軟體都是預配置好的,到貨後可以馬上建庫投入使用,而且裡面有多種特性保證資料庫運行性能非常強勁。
再次,這種一體機,對比傳統的單獨購買伺服器存儲資料庫軟體再自己搭建系統的方式來說,價格昂貴。其性能的提升相對於價格,對一般客戶的吸引力沒有那麼大。(當然如果客戶有錢,那另說)


優點:
1. 針對特定應用場景,性能優良
2. 穩定,且售後服務和技術支持有保證
3. 對大公司而言,確實是節省成本的好選擇

缺點:
1. 大數據方向,組件比較多,應用場景也比較多,很難找到滿足所有場景的一體機解決方案
2. 目前一體機更多的還是處於概念方面,不夠成熟
3. 大數據相關的技術日新月異,一體機要做到企業級不能很快的跟進新的技術
4. 對小公司而言,目前搭建滿足其業務大數據處理平台並非難事

所以,目前一體機的客戶可能更多的針對政府、國企、處於二三線城市的傳統企業等。


一體機就是軟硬體綁定,對於使用者是黑匣子,說的直白點:一旦買了一體機,就被廠家綁定了,升級維護只能依賴廠家,而且還會有很多不支持的功能。好處就是使用起來簡單,傻瓜式。在互聯網倡導免費、開源、去ioe的大潮下,我個人不建議使用一體機。


個人覺得更多還是噱頭,這個不會是大數據未來發展的方向。大數據的一體機應該還是有市場的,但是市場應該不會太大。價格不便宜使得小公司不會用它,而到了一定規模的公司,比如大型的互聯網公司,其業務量和業務需求一體機是無法滿足的,所以它們也不會去購買,更傾向於以自身需求為導向在開源軟體基礎上進行深度的定製。那麼看起來也就是政府和國企這些不差錢對技術投入也不夠的單位才會買了。


對於土豪來說,還是有必要的~~~畢竟GP+Dell不適合每個公司,不是每個公司都有讀源碼的大牛~


從數據倉庫角度來講,不是噱頭。Teradata的一體機,從穩定性上確實壓過了GreenPlum + Dell伺服器。拋開GP本身服務的穩定性,硬體也經常發生燒風扇等情況。


推薦個國內的一站式平台 http://www.ethinkbi.com


推薦閱讀:

如何成為一名數據科學家?

TAG:資料庫 | 商業模式 | 計算機 | 大數據 |