相比於傳統 BI,基於 Hadoop 的大數據(Big Data)戰略有何不同?
個人理解是說傳統BI重在對數據倉庫中的一般規模結構化數據進行分析和提供商業智能,而Big Data的能力在於起對海量非結構化網路數據的處理整合能力,各位怎樣想?
還有各位覺得在BI實施中最重要的因素,或是讓BI創造價值最關鍵的因素是什麼呢?
可以參考這個問題的回答 ——如何看待大數據BI技術? - 知乎
1、關於BI和大數據
BI(BusinessIntelligence)即商業智能,它是一套完整的解決方案,用來將企業中現有的數據進行有效的整合,快速準確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策。
大數據(Big Data)是指在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
不管定義如何不同,大數據與傳統BI是社會發展到不同階段的產物,大數據對於傳統BI,既有繼承,也有發展,從"道"的角度講,BI與大數據區別在於前者更傾向於決策,對事實描述更多是基於群體共性,幫助決策者掌握宏觀統計趨勢,適合經營運營指標支撐類問題,大數據則內涵更廣,傾向於刻畫個體,更多的在於個性化的決策。
當然純粹從思想的角度講,兩者在概念上是可以實現統一的,都遵循數據-信息-知識-智慧這個脈絡,甚至在更高的層次,兩者也是可以統一的。
2、兩者技術上有什麼相關性?
傳統BI的技術標籤:ETL、數據倉庫、OLAP、可視化報表。
大數據的技術標籤:Hadoop、MPP、HDFS、MapReduce、流處理等。
傳統BI就目前來講,其功能都可以被對應的大數據組件所替代,但大多數企業缺乏大數據業務的驅動,也缺乏相關的高技術人才。
不過新型BI被賦予了更多「大數據」潛能。正如圖右側架構所示,BI架設在大數據應用層,抽取etl後或者Hive來的數據又可作通用類的業務分析。既滿足了海量實時數據分析,也滿足了決策型的業務分析。
3、企業應該青睞大數據還是商業智能BI?
在技術領域,雖然傳統BI的ETL、數據倉庫、OLAP、可視化報表技術都似乎處於落後邊緣,因為它解決不了海量數據的處理問題,但也並不能全盤否定或替代成大數據。企業採用SAP HANA,BI的分散式計算都是基於這個問題優化的方案。BI的那套也將長期存在,畢竟企業對BI方案還是很青睞,大數據的普及和應用也是個漫長的過程。
企業應該選擇大數據還是商業智能。
大數據不是繡花枕頭,它的第一要務就是解決業務問題,大數據一定程度上講就是用全新的數據技術手段來拓展和優化業務,傳統企業需要聚集一撥人來研究這個問題,需要有人專門研究和探索。如果對外,想清楚新的商業模式,如果對內,想清楚在哪個場景,可以用大數據的手段來提升效率。
當前大數據可以產生價值的地方,從行業的角度看,互聯網、製造業、公共服務、醫療保健、金融服務都有廣闊前景。從領域的角度看,廣告、營銷、風控、供應鏈都是大數據發揮價值的地方,對於特定企業,比如電信運營商,大數據也可以在網路優化等方面提供新的方法。
也並不是每個企業都需要打造自己的大數據平台,量力而行吧,可以自研 ,比如BAT,也可以採購,比如傳統大企業,也可以租用,比如用阿里雲和AWS。
就事實來講,BI的應用是遠遠大於大數據應用的,有其通用的道理。大數據相對於傳統BI,也不僅僅是簡單的PLUS的關係,它涉及了思想、工具和人員深層次的變革,BI人員既不要一提大數據,就嗤之以鼻,認為它是新包裝的馬甲,其實就那麼回事;也不需妄自菲薄,以為搞大數據就那麼高大上,它的確是BI大多數思想的傳承。
4、BI和大數據的價值
個人之見,BI創造的價值是長遠的,關鍵的價值在於,企業可通過BI梳理業務和管理流程。通過數據可視化督促數據治理,倒逼數據質量,藉此提出指標的改進方案和行動計劃,以提升關鍵指標。
而BI實在實施中過程中最難也是最關鍵的,引用專欄的一篇文章《一個成功的BI項目實施需要注意哪些? 》 知乎專欄
1、數據質量和數據口徑統一的問題;
2、項目團隊組建,能夠獲得領導和企業上層的支持,借用他們的力量來推動進程。
其實說起來,建模還是一樣的,數據倉庫以前怎麼玩,現在還是怎麼玩,反正數倉是建立在sql上的,大數據有sql介面就可以了
著是sql的好處呀試圖回答你的問題。傳統BI,主要是基於關係型資料庫和數據倉庫的商業洞察分析,其特點在於數據採樣性和結構化,這是因為關係型資料庫一般不能很好進行擴展,數據處理能力大致在GB級別。另外關係資料庫也不能處理非結構化數據,參與洞察分析的數據類型就受到限制。
通常來說,大數據的價值,需要對全量的、多品類、跨業務的數據分析,才能產生價值,傳統BI的結構化約束,極大制約了數據種類,不能擴展的處理也限制了數據處理量。
基於Hadoop的大數據處理,優勢在於計算的擴展性,可以處理TB到PB的數據,另外可以多非結構化的數據進行分析,滿足大數據多樣化的要求,能夠充分挖掘數據價值。目前hadoop已經成為大數據分析的事實標準。
但是hadoop也不是萬能的,在實時分析、互動式分析就無能為力。
關於傳統BI,推薦這篇文章,希望對你有幫助:
華聯商超數據中心總監付立虎曾經講過這樣一個故事:北京華聯作為國內大型商業超市,每天來自全國門店的交易數據有千萬條,每年僅用戶購買的數據累計就超2TB,對於數據分析應用的需求非常強烈。為此,華聯在2008年專門引入SAP的BW系統用於數據分析,隨後於2012年又引入SAP的BO產品,做更高級的數據分析,為業務做指導。
但令付立虎無奈的是,用SAP的BO進行億行報表查詢時,需要20分鐘左右,同時在線4人系統就會崩潰……使用昂貴的國外軟體解決不了問題,付立虎開始在國內尋找解決辦法,於是有了海致BDP和華聯的結緣。
BDP商業數據平台官網:
華聯官網(北京):
華聯商超的故事並非個案。最近風頭正勁、主打「快時尚」的零售新銳名創優品之所以和海致BDP達成合作,也是因為使用SAP的BI系統,數據聚合、抽取以及展現時間都以數小時計,效率非常低下。比如,導出一張報表需要6-8個小時,而在數據導出過程中還經常出現中斷,這對數據分析員的實時分析造成了巨大不便…
商業智能,英文為Business Intelligence,簡寫為BI。這一概念最早於1996年由Gartner 提出,隨SAP、Oracle等一眾海外軟體巨頭漂洋過海來到國內,曾一度被認為是繼ERP之後,企業管理軟體領域新的增長藍海。
不過,殘酷的現實是,軟體巨頭們鼓吹的那套傳統BI實施失敗率一直居高不下。據不完全統計,在企業實際的應用中,商業智能的失敗率達到70%,令人瞠目。
首先是技術困境。華聯商超和名創優品的案例,其實反映了傳統BI的ETL、數據倉庫、OLAP等技術,都處於淘汰邊緣,因為它解決不了海量數據(包括結構化與非結構化)的處理問題。傳統BI已死並非危言聳聽。居高不下的實施失敗率,背後折射出的是傳統BI的多重困境。
有工程師在網上吐槽:「原來的BI挖掘人員,抽取一些樣本在單機上運行個R就很歡樂,但現在不行了,針對5000萬用戶搞個三度交往圈試試?」
「小數據」時代的計算性能,在互聯網時代讓傳統BI舉步維艱。因此只有更新方法,才能帶來新的機會。基本上,傳統BI所有的功能,都可以被對應的大數據組件所替代,且大數據技術具有成本優勢,技術的汰換是大勢所趨。 其次是商務困境。眾所周知,無論是高富帥的大企業,還是中國2000萬中小企業,採購SAP、Oracle的軟體服務對企業而言都是一筆昂貴的IT成本,中國企業信息化的任務不可能指望它們來完成。如果技術無法普惠,技術就永遠是少數人的遊戲。 除了高成本之外,傳統軟體按照項目周期運轉的交付方式也無法適應企業快速變化的需求。在傳統BI的實施過程中,常常出現一期項目看起來效果不錯,但企業後續的新需求、新項目就變得遙遙無期或爛尾。
幸好出現了雲計算。軟體即服務(SaaS)的理念徹底顛覆了傳統的軟體生意——按需求付費,在線獲取資源,快速迭代構成了互聯網時代企業對軟體服務新的標準認知。
如果說技術困境和商務困境尚有辦法解決,那麼傳統BI尷尬的價值定位,則是其無法擺脫的阿喀琉斯之踵。
傳統BI廠家喊了多少年的「幫助企業做出明智的業務經營決策」,現在除了一堆報表系統,一些決策樹等統計演算法,還剩下什麼?傳統企業引入了那麼多的BI諮詢,寫了那麼多報告,真正發生過價值的有多少? 究其根本,在傳統BI廠商那裡,目標受眾只有老闆,決策與執行脫節,無法下沉到一線,最終淪為面子工程,根本產生不了實際價值。 傳統BI的失敗,是技術主導驅動業務導致技術空心化的結果。這種以報表呈現為目的的開發,不上不下的價值定位,被歷史淘汰實屬必然。
企業的大數據要發揮價值,目標受眾應該瞄準那些真正在業務一線做運營、做分析、看數據的人——為什麼xxx APP註冊會員今天的活躍度下降了?xxx商品為什麼上午賣得比下午多?為什麼xxx渠道廣告投放一周都沒效果?……這些每時每刻都在上演的真實商業場景,不可能都一一等待老闆來回答。 而要真正做到員工腦子裡有想法就能實時得到結果,就要求數據分析工具儘可能降低技術門檻,大幅提升技術性能,簡單拖拽就能展現精美的數據圖表,最好還能兼顧PC端和移動端,只有業務部門用好數據分析,數據價值才能得到最大發揮。
數據驅動的不僅是老闆,數據更應該溶進企業每一個普通員工的血液里,數據驅動才不會淪為一句空談。
首先,我認為要了解hadoop和大數據的關係。
可以參考話題 hadoop和大數據的關係?和spark的關係?互補?並行?
Hadoop是用於解決大數據存儲和處理的主流的分散式計算系統。基於hadoop的大數據戰略和基於其他分散式計算系統的戰略,我認為大體相同,各有優劣勢,看實際場景如何選擇。
第二,傳統BI和大數據的關係。
傳統BI和大數據之間並不是對立關係。首先我們看下BI的介紹。
「商業智能的概念在1996年最早由加特納集團(Gartner Group)提出,加特納集團將商業智能定義為:商業智能描述了一系列的概念和方法,通過應用基於事實的支持系統來輔助商業決策的制定。商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息,然後分發到企業各處。」 以上轉自商業智能_百度百科
BI廣義上代表一系列的概念和方法,目標是把數據轉換為有用的信息。那麼小數據、大數據對於BI來說,其實本質沒有什麼區別。只是中間的存儲和處理數據技術上不相同。目前來看,國內大部分大數據項目實施的時候,只是在原有的數據倉庫理念上進行了適當變形。
BI在狹義上是指的數據分析工具,對於數據分析工具來說,基於大數據,只是支持的數據源和調用方法不相同,最後的產出是一樣的。
第三,針對題主的問題,我理解如下
問題1,對於Big Data 來說,確實大部分數據是非結構化數據,但傳統BI也並不是不解決非結構化數據的問題。只不過Big Data下,大家對非結構化數據的問題關注越來越大了,這部分數據的價值一直沒有被利用。所以對於非結構化數據的處理整合能力確實是大數據時代的挑戰。但即使是非結構化數據,最後依然也是轉成結構化的信息被利用。
問題2,BI實施中最重要的因素,我認為主要有三個方面
1、技術能力:對BI相關技術的熟練運用,這個是基礎
2、行業經驗:實施團隊的項目實施經驗、行業經驗。有利於高質量、低風險的完成實施交付。比如數據質量的處理、ETL處理、產出的處理。
3、後期維護:穩定而持續的後期維護。BI不是一鎚子買賣,需要根據業務變化,不斷去調整。
問題3,BI創造價值最關鍵的因素,我認為主要是時效性和人。
時效性很重要,試想一份數據過了一個月才被產出價值,可能已經錯過了最好的商業機會。
人,這裡特指是數據分析業務人員,需要懂業務的專家配合技術人員一起,充分利用現有的數據,去分析和挖掘數據,找到數據規律和答案,輔助企業運營決策。
所有的技術都是為業務價值服務。沒有業務價值,再好的技術能力也是浪費
這是一篇對話Hadoop之父Doug Cutting的文章,讓您從另一層面了解基於Hadoop的大數據戰略相關信息:Hadoop是無心插柳的驚喜,其在AI時代仍有想像力
提到大數據, Doug Cutting可能是最應該被記住的角色。他十年前的作品Hadoop運用分散式存儲、運算技術為大數據處理帶來了巨大突破。
1985年畢業於斯坦福大學,Doug Cutting先後任職於Xerox、Architext、Yahoo和Cloudera,並開發了全球首個全文文本搜索的開源函數庫Lucene、著名的開源搜索引擎Nutch,以及他最引人矚目的作品Hadoop。
7月13日至15日,全球數據盛會Strata Data Conference展會在北京召開。Hadoop之父、現任Cloudera首席架構師的Doug Cutting參與並主持了本次大會14日的Keynote演講,開幕儀式後,他接受了大數據文摘等媒體的採訪,為我們講述了Hadoop誕生的故事,並指出了Hadoop拓展技術生態與雲模式、並與AI結合的未來發展方向。
Hadoop的誕生:無心插柳的驚喜,發展遠超預想
「當時我只是個人有這樣的一個需要,就是想要做好手上的項目。」
談起他開發Hadoop的初衷,Cutting表示,差不多十年前的項目伊始階段,他並沒有一個明確的Hadoop發展計劃。
2004年, 處於自由職業階段的Cutting正在與好友從事一個代號為Nutch的項目的運轉開發,旨在能夠基於開源去創建出一種網路搜索的引擎,實現一種具有可擴展性、可收縮性的數據技術。巧合的是,Google同期發表的幾篇論文與他們的想法十分切合,Cutting便順勢將Google的想法放到了Nutch項目當中來實施。
就這樣,對大數據運算產生了深遠影響的開源軟體框架Hadoop誕生了。
在開發之初,Hadoop主要服務於搜索引擎和網站創建的服務,而此後,Hadoop也在製造、銀行、電信等眾多行業得到了廣泛應用,Facebook、eBay、LinkedIn等公司都成為了Hadoop的用戶。
「當時我確實是沒有預想到,這個技術創建出來以後具有如此之廣的用途。Hadoop發展的演進範圍、規模確實大大超出了我當初的預想。」Cutting笑著說道。
Hadoop新方向:拓展技術生態與雲模式,與AI結合
在今天,Hadoop作為一項基礎技術在業界發揮著關鍵作用。而更讓Cutting驚喜的是,圍繞著Hadoop也發展出了一些列的技術與項目。
「Hadoop逐漸發展成了一個基於多種技術組成的系列家族,圍繞著Hadoop已經形成了非常強大的生態系統。」Cutting這樣告訴我們。
舉例說,作為Hadoop系存儲系統之一的Kudu也已在業界被廣泛應用。Kudu是一款非常強大的存儲引擎,它既具備了像Hbase隨機訪問的強大知識能力,同時又有HDFS快速查詢能力。此外,Cutting也提到了Cloudera目前正在開發的一款基於Spark機器學習的工具——Apache Spot。這款產品旨在保護用戶的網路安全,讓他們免遭黑客的攻擊。
在大數據與AI技術火熱發展的當下, Hadoop也成為了與之相當匹配的技術。以Google近期發表的AI圖象識別為例,這項技術基於數以十億計的圖象識別深度智能系統培訓,背後仍然是用大數據實現AI的理念。人工智慧系統進行訓練使用的數據量越大,人工智慧系統的質量就越高,而Hadoop生態圈即是大規模數據運算的關鍵之一。
除此之外,雲計算與雲模式的理念也進入了Hadoop的開發中。目前,Hadoop的用戶可以在雲環境中使用這一架構,這一改變為用戶提供了更大的靈活性。
Cutting告訴我們,如果用戶把Hadoop用本地安裝運行的形式來使用的話,他們往往是建單個很大的集群來支持各種不同的應用,並且擁有一個統一的數據拷貝。如果在雲環境當中來運行Hadoop,他們的數據會存儲在亞馬遜之類的系統當中,雲環境供應商已經幫助他們管理了數據的拷貝。
與此同時,在雲環境當中使用Hadoop,客戶可以針對不同的應用創建不同的集群,而這樣的集群無論是開關或者是規模的伸縮,都可以按需進行,這樣對於客戶來說,他們在對於應用有了更好控制的同時也增加了靈活性。
然而,Cutting也認為,Hadoop在雲上的應用與實體物理機上的應用在未來的若干年仍然會長期並存下去。
比方說對於一些數據量非常之大,而且本身企業的處理資源很強的客戶來說,很多的工作負載,特別是像需要全天候永續運行的工作負載更適合放在本地的物理機上運行,這帶來的經濟實用性更強,擴展性也更強。此外,由於受製法律上的要求,還有一些工作負載或者是數據的處理按規定是必須要放在本地的物理機當中來運行的。
在Cloudera,目前Hadoop業務的雲模式佔到了15%到20%。Cutting認為這一比例在未來會增長到40%到60%,但是不會到90%。也就是說,本地安裝運行的模式仍然會是Hadoop業務的一個重要組成部分。
Hadoop在中國:用戶習慣有待培養,教育計劃正在起步
在訪談中,Cutting也特意提及了Hadoop在中國的發展狀況。Cutting認為,Hadoop與中國市場之間有一個非常自然的契合和匹配。
從大數據出現一直到今天,中國一直是在大量使用和參與推進大數據的發展。而在過去十年當中,Hadoop在中國也是一直得到了大力推進,取得了非常大的成功。從數據的角度來說,中國可以說是世界上最大的單一市場,中國擁有數據數量和規模超過了世界上大部分其他的國家,這也就是為什麼Hadoop在中國有著非常成功的發展。
然而,Cutting也注意到了中國市場與美國市場在用戶習慣上的差異。很多中國的Hadoop用戶仍舊習慣使用Hadoop的開源版本,而不需要去具體得到哪一家公司的支持和幫助。中國市場相比美國,仍然需要花更多的時間對市場進行教育和培育,也就是讓人們能夠了解到,在使用這些軟體的過程當中如果能夠得到有關方面的支持和幫助,從更加長遠的角度來說會有更好的結果。
「這樣的市場教育在中國可能是要花更長的時間,但是對於Hadoop在中國的發展前景我是非常有信心的。」Cutting自信地說道。
Cutting也注意到了以Hadoop教育為首的Cloudera學術計劃在中國的起步,在這個計劃當中,Cloudera把大數據培訓的技能、教材、內容免費提供給大學合作夥伴,目前已有包括清華大學在內的多所高校參與了這一計劃。此外,Cloudera也正在亞洲開展一個名為BASE Initiative(大數據分析技能培訓計劃)的教育項目。在這一計劃中,Cloudera與大學、政府部門,和需要招聘大數據人才的公司一起合作,對潛在對象進行大數據技能的教育培訓,並且招聘其中的一些人到有大數據技能需求的公司來工作。
大數據普及:賣產品只是開始,結構變化、人才培養才是關鍵
除Spark之外,Cutting也談到了近幾年大數據應用的普及。Cutting指出,各行各業的大數據項目當前保持著穩步持續地增長。自從Cloudera誕生以來,大數據的應用一直處在穩步增長的曲線之中,而沒有出現停滯不前或者是失去動力的情況。
大數據已經在多個領域取得了重大突破,如反欺詐方面。另外即使在醫療領域,大數據也已經有了很多成功案例,比方說美國有一家公司Cerner開發了一套大數據系統,主要是來判斷患者有可能發生敗血症的情況。即使是在癌症治療方面,大數據的應用也在取得更多的進展,比方說在基因組學的研究方面,以及在取得治療癌症方面的進展。
然而,Cutting也告訴我們,大數據應用的普及是一個長期的過程,應該讓每一家公司、每一個組織機構都能夠用正確的方式用好數據,即使這需要花很長的時間。普及大數據應用不像賣智能手機,不是說把產品賣到人手一台,這個事情就完成了。大數據的普及,需要組織結構本身發生很大的變化,還需要很多的教育工作、人才的培養工作,但是這一切都是在穩步推進當中。
知識圖譜vs統計學:誰是人工智慧發展關鍵?
最後,對於知識圖譜與統計學誰能引領人工智慧發展的問題,Cutting也提出了他的看法。
Cutting認為,在推動人工智慧的過程當中,知識圖譜、知識工程的方法並沒有統計學方法那麼成功。知識工程在上世紀八十年代就已經非常流行了,但深度學習在當今取得的成功主要依靠的其實是統計學的方法,也就是基於巨量數據的各種模型的訓練。基於統計學的深度學習在像圖像識別、語音識別以及分類任務的完成之上取得了巨大的成就。這不代表知識圖譜、知識工程的方式在人工智慧當中永遠不會成功,只是在目前的現狀當中它們還不如統計學的方法那麼有效。
此外,Cutting也指出了深度學習進一步發展所要面臨的挑戰,即深度學習的有用性、適用性、廣度到底有多大。目前在一些認識、識別任務的完成當中,深度學習非常有效,比方說在大量的噪音或者是干擾的因素中進行清晰的識別、分類、標籤。但是在處理其他涉及形勢分析與決策的任務,剛才說到的這種能力還是遠遠不夠的。
「雖然目前人們對於深度學習能夠完成很多其他的任務是非常樂觀的,但是我希望這樣的樂觀不會是一種過度的樂觀。」Cutting如是說。
兩者之間不是對立的吧,hadoop出初步聚合結果,存到關係資料庫,該查詢查詢,該搭報表伺服器搭伺服器,增強了傳統數據倉庫存儲處理大量數據的能力。基於大數據的機器學習跟bi關係就弱一點了,但目的不同,是不同方向了。
相比於傳統 BI,基於 Hadoop 的大數據(Big Data)更多是偏向是雲端數據分析平台,不再是單純的傳統BI報表,而是能夠集數據接入整合、數據處理、數據分析、數據可視化、數據存儲、靈活的賬號管理等功能,是集中企業內部數據的一種大數據平台,更加高性能、更加靈活,類似BDP商業數據平台這些新型的數據云平台,都是這類大數據平台比較典型的代表,也能受到各個領域用戶的喜愛。
推薦閱讀:
※人工智慧、大數據、雲計算、物聯網,彼此之間有哪些內在聯繫?
※如何評價《Big Data:大數據時代》這本書?
※怎麼看待oracle的exadata與share nothing系列的hadoop等,以及優缺點相互對比、各自的前途..對未來的影響?
※機器學習如何才能避免「只是調參數」?
※通過數據挖掘你有過哪些意想不到的發現?