想深度了解下華為的FusionInsight?請不要扒他們的手冊資料,多謝啦

請問華為的FusionInsight提供Hadoop集群的部署嗎?它的工作原理是什麼呢?資料寫的看不懂,都太面上了,多謝各位了


影音識別、機器學習,雲計算、人工智慧,大數據。現在各種各樣酷炫的玩意者這一切的基礎是什麼呢?當然還是大數據技術的發展。說起來,數據越大電腦就越大,電腦越大產生的數據就更大。就能多大的電腦合適呢?要搞個天氣預報,計算量非大型機不可,想給在火星吃土豆的馬克送點外賣,得用超級計算機規劃飛船的航線,反正我們的台式機不夠。如果馬雲爸爸想根據用戶的搜索購買記錄推送廣告,嘖嘖這數據計算量的上量子計算機。不過與三體小說類似,目前還沒有可以商用的量子計算機,要想達到效果就必須榨乾現有設備的剩餘價值。三體人最開始創造了人列計算機,目前我們也是這麼做的,當然不是用人,而是用一堆電腦組成一個大的電腦。大數據技術的基礎就是怎麼用一堆電腦攢出來一個大一點的電腦。聽上去很簡單。

想想看,一個電腦至少是什麼樣的?首先得有個硬碟來存儲,之後還要內存CPU來完成計算,這些需要主板整合起來。還有I/O設備完成人機交互,其實有了I/O設備還是沒法用,還要有操作系統。人類不可能親自去調用CPU的指令集。有了操作系統就可以裝上應用跑起來了,我們每天使用電腦其實都是在使用軟體,沒有軟體相信磚頭比電腦順手。

那麼怎麼把一堆小電腦攢成大電腦之後再裝操作系統跑應用呢?當然這個世界需要一個救世主的時候,微軟,蘋果等奸商是靠不住的,站出來的只有谷歌。谷歌還有這方面經驗的。比如android.提出一個開源的項目,大家都在這個平台上群思廣義逐步發展起來。這個事情也就這麼做起來了。那就是hadoop。谷歌將hadoop技術開源,然後形成了阿帕奇的社區,各種大神們逐步的去完善它發展它。我一向不覺得蘋果的ios至於安卓如何如何。因為我覺得蘋果和谷歌相比的話,就像是小米粉懟笑花粉時候一樣可愛。懂得自然懂,不懂的人是理解不了華為是一個服務30億人,已經能夠左右IT技術發展方向的可怕存在。

說到華為,這才進入正題。本來hadoop是一個開源的玩意,華為把它拿過來研發了一個產品。當那就是FusionInsight HD。做出來當然是賣錢的咯。怎麼感覺不厚道呢?其實不然,熟悉我的人知道,我的主手機是從htc到moto再到nexuse的。這些都不是大家通常會考慮的品牌。因為華為,小米,甚至紅藍大廠的手機易用性功能性都是比原生態的安卓做出了更多適合國人的優化的。你能說這些優化不是值得人們付錢消費的創造和勞動么?

扯這麼多,是為了理解華為的FusionInsight HD就是大數據世界的emui。這麼說就能夠很好繼續咯。

一個電腦,要考慮它的存儲,那麼FusionInsight HD是怎麼實現存儲呢?用HDFS.我最早接觸過磁碟陣列,一個主機上插了32塊硬碟,7*24小時的存儲視頻監控錄像。我去拔掉一塊硬碟,也不會丟失哪怕一秒的錄像。插回去它還能接著存。一個由數百個伺服器組成的集群也應該這樣,因為設備多了,那麼故障就是常態。業務不能斷,數據不能丟,一個伺服器掛了怎麼辦?一秒鐘上TB的數據吞吐量伺服器卡了怎麼辦?各種問題,都是用HDFS解決的。

有了存儲,那麼怎麼去調用他很麻煩,就像我的書櫥里那麼多書,遇事不決還是要問百度一樣。我們還需要搜索引擎,還需要資料庫。FusionInsight HD使用了solr,hive, hbase等組件。

人類搞的人工智慧,基礎是機器學習,讓一個電腦一次次的去判斷一個照片是不是貓,然後自己尋找規律最終具備判斷照片裡面那個東西是不是貓的能力。這又是怎麼實現的呢?FusionInsight HD就使用了MapReduce,spark,,Streaming,storm這些基礎演算法,然後支持Graohx圖形處理演算法和mlibmachinlearning機器學習演算法就有可能讓這個集群學會辨認貓的照片。

能存儲,能計算,這事情就差不多了,不過有人的地方就有江湖,電腦也一樣。誰當老大,誰來管理?沒有管理怎麼讓這些個演算法按照人類的意願去跑起來呢?那麼多伺服器,CPU,內存,存儲資源都貢獻出來了,誰先用,怎麼用,用多少各種問題。FusionInsight HD的硬體資源管理,主要是yarn實現的,演算法管理oozie實現的,還有一個玩意叫zookeeper,動物園管理員?這個是系統的仲裁者,比如哪個伺服器做主機,哪個當備胎之類的事情由zookeeper裁決。

到這裡就搞得七七八八了,既然是商用,那麼安全性,可靠性,易用性總是要考慮的。那就是Kerberosldpa負責加密認證,manager負責提供一個webui給人類一個圖形化的操作界面了,圖形化的哦,不用敲太多命令哦~

講到這裡,就是跟大家談下個人對學習FusionInsight這個事情。我做了一套思維導圖。首先是學習路線圖。

學習的思路是先了解大數據,hadoop,FusionInsight這些事情。然後學習系統的組成,和每個部分功能及實現的原理。

只有把整個系統的思想吃透了,才能根據實際情況去設計、

部署

實現它。

至於硬體施工,安裝伺服器,布線,組網、加電這些事情並不難。而怎麼部署FusionInsight系統比較難,難就難在需要了解整個FusionInsight的各個組成部分和實現機制才能理解其集成設計到部署的整個過程。


一個在銀行的同學測試過這個產品,就是把hadoop包裝下想騙銀行客戶錢的, 沒什麼卵用的東西,各個大數據公司都有一套。


華為這種沒有一點創新東西的公司,就會把開源東西打包一下,騙錢!!!


推薦閱讀:

華為Mate9限量版定價合理嗎?
為什麼最近一周華為的話題如此多?
華為mate9國內價格公布,沒有過萬的。大家滿意嗎?
華為Mate7怎麼root?

TAG:華為 | 大數據分析 |