大數據、雲計算和商業智能這三者的關係到底如何,以後的發展前景有什麼看法?
先來說說大數據和雲計算的關係
大數據的本質就是利用計算機集群來處理大批量的數據,大數據的技術關注點在於如何將數據分發給不同的計算機進行存儲和處理。
雲計算的本質就是將計算能力作為一種較小顆粒度的服務提供給用戶,按需使用和付費,體現了:
- 經濟性,不需要購買整個伺服器
- 快捷性,即刻使用,不需要長時間的購買和安裝部署
- 彈性,隨著業務增長可以購買更多的計算資源,可以需要時購買幾十台伺服器的1個小時時間,運算完成就釋放
- 自動化,不需要通過人來完成資源的分配和部署,通過API可以自動創建雲主機等服務。
雲計算的技術關注點在於如何在一套軟硬體環境中,為不同的用戶提供服務,使得不同的用戶彼此不可見,並進行資源隔離,保障每個用戶的服務質量。
在大數據和雲計算的關係上,兩者都關注對資源的調度。
- 大數據處理可以基於雲計算平台(如IaaS,容器)。
- 大數據處理也可以作為一種雲計算的服務,如AWS的EMR(Amazon Elastic MapReduce )阿里雲的ODPS(Open Data ProcessingService)。
大數據和商業智能BI的關係
- 從概念的角度區分
BI(Business Intelligence)即商務智能,它是一套完整的解決方案,用來將企業中現有的數據進行有效的整合,快速準確地提供報表並提出決策依據,幫助企業做出明智的業務經營決策。
商業智能BI在數據架構中處於前端分析的位置,其核心作用是對獲取數據的多維度分析、數據的切片、數據的上鑽和下鑽、cube等。通過ETL數據抽取、轉化形成一個完整的數據倉庫、然後對數據倉庫的數據進行抽取,而後是商業智能的前端分析和展示。
大數據(big data)是一種信息資產,它是無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力。簡單而言,大數據更偏重於發現、預測並印證的過程。
- 從數據來源的角度區分
大數據、的數據來源包括內部數據和外部數據,有很大一部分數據是包括音頻、視頻、圖像在內的非結構化數據,或是半結構化數據。這類數據通過大數據管理的方式進行整合,然後用BI的方法進行分析挖掘處理。
而BI的數據很多是來自資料庫的結構化數據分析。在企業內部實施BI應用就是為了可以更好的對數據進行分享和使用。
- 從技術的角度區分
從技術方面來看,傳統BI的ETL、數據倉庫、OLAP、可視化報表技術,都處於淘汰的邊緣,因為解決不了海量數據(包括結構化與非結構化)的處理問題,BI的很多功能都可以被對應的大數據組件所替代。大多數企業即使沒有大數據業務的驅動,大數據技術的優勢依然不容小覷。
- 從應用的角度區分
BI涉及的應用科學包括:終端用戶查詢和報告工具、數據挖掘軟體、數據倉庫產品。主流的傳統商業智能工具包括BO、COGNOS。一些新型的BI工具如Tableau、Qlikview、帆軟FineBI在目前市場也被廣泛應用。
而大數據的應用幾乎涉及到社會生活的方方面面,如醫療行業、金融行業、體育行業、安全執法、城市改善等等。當然,大數據所涵蓋的領域不止這些,未來還會有許多新的行業和領域利用大數據的應用進行規劃和發展。
- 從決策者的角度區分
BI更傾向於決策,對事實描述更多是基於群體共性,幫助決策者掌握宏觀統計趨勢,適合經營運營指標支撐類問題;大數據則內涵更廣,傾向於刻畫個體,更多的在於個性化的決策。
- 從人員技能角度區分
大數據的數據處理,涉及很多新的技術,不同的應用場景需要不同的大數據處理方法,需要有人專門進行研究和探索,可見大數據對於BI人員的技能要求有所提高。
- 從發展趨勢的角度區分
隨著企業CRM、ERP、SCM等應用系統的引入,企業不僅僅關注事務處理過程,而更加註重有效利用企業的數據為準確和快速的決策提供支持。由此帶動的對商業智能的需求將是巨大的。BI的發展趨勢可以歸納為以下幾點:從單獨的商業智能向嵌入式商業智能發展,從傳統功能向增強型功能轉變,從傳統型BI向敏捷型BI轉變。
大數據的發展趨勢包括:數據的資源化,與雲計算的深度結合,數據管理成為核心競爭力,數據生態系統複合化程度加強,數據質量是BI(商業智能)成功的關鍵,數據泄露泛濫。
最後,關於大數據以及企業數據建設案例,歡迎關注專欄:帆軟數據應用研究院 - 知乎專欄
關於大數據和雲計算的關係人們通常會有誤解。而且也會把它們混起來說,分別做一句話直白解釋就是:雲計算就是硬體資源的虛擬化;大數據就是海量數據的高效處理。 雖然上面的一句話解釋不是非常的貼切,但是可以幫助你簡單的理解二者的區別。另外,如果做一個更形象的解釋,雲計算相當於我們的計算機和操作系統,將大量的硬體資源虛擬化之後再進行分配使用,在雲計算領域目前的老大應該算是Amazon,可以說為雲計算提供了商業化的標準,另外值得關注的還有VMware(其實從這一點可以幫助你理解雲計算和虛擬化的關係),開源的雲平台最有活力的就是Openstack了; 大數據相當于海量數據的「資料庫」,而且通觀大數據領域的發展也能看出,當前的大數據處理一直在向著近似於傳統資料庫體驗的方向發展,Hadoop的產生使我們能夠用普通機器建立穩定的處理TB級數據的集群,把傳統而昂貴的並行計算等概念一下就拉到了我們的面前,但是其不適合數據分析人員使用(因為MapReduce開發複雜),所以PigLatin和Hive出現了(分別是Yahoo!和facebook發起的項目,說到這補充一下,在大數據領域Google、facebook、twitter等前沿的互聯網公司作出了很積極和強大的貢獻),為我們帶來了類SQL的操作,到這裡操作方式像SQL了,但是處理效率很慢,絕對和傳統的資料庫的處理效率有天壤之別,所以人們又在想怎樣在大數據處理上不只是操作方式類SQL,而處理速度也能「類SQL」,Google為我們帶來了Dremel/PowerDrill等技術,Cloudera(Hadoop商業化最強的公司,Hadoop之父cutting就在這裡負責技術領導)的Impala也出現了。 整體來看,未來的趨勢是,雲計算作為計算資源的底層,支撐著上層的大數據處理,而大數據的發展趨勢是,實時互動式的查詢效率和分析能力,借用Google一篇技術論文中的話,「動一下滑鼠就可以在秒級操作PB級別的數據」難道不讓人興奮嗎?&<論文傳送門:http://vldb.org/pvldb/vol5/p1436_alexanderhall_vldb2012.pdf&>(因為本人比較關注大數據方向,所以說的偏了一些,請包涵~)
從AI從業者的角度談談對這個的理解。
關於這三者的關係,前面說得很好。
這幾個概念甚至不是一個層次上的概念。雲計和大數據,更多的是一種計算架構方面的內容。你可以簡單地理解為,你的業務跑在雲計算的平台上,跑了好多年了,記錄了大量的數據,就叫大數據吧(雖然大數據這個詞就像哈姆雷特一樣,一千個人心中有一千種定義……)。但是數據放在那邊是死的,很多公司就放在那,長期佔用著他們的硬碟。
而商業智能,就是可以把這攤死數據盤活,做個「廢物」再利用的化腐朽為神奇的技術。
簡單的比喻吧,比如你開了幾年的雜貨鋪,記錄了幾萬筆交易,你可以發現哪些商品在某個特定的季節賣得好那就多進點貨,那麼明年這個時候就可以多備點貨了。這就是最簡單的商業智能。
【商業智能,貴么?】
大家都在說商業智能、都在說AI,但AI、BI不是你想做就能做的啊。
核心在於:AI在BI上面的應用,並不是一個標準化的產品。
這個應該很好理解。雖然AI在演算法上是相通的,但具體到應用場景,每家公司的業務都不一樣,產品、客戶、商業模式千差萬別,收集的數據、提出的商業假設和增長指標千差萬別,很難做到千篇一律。
這種非標準化的需求就帶來了一個問題:成本高昂。
比如同樣是做衣服,為啥量體裁衣的衣服會比優衣庫貴這麼多?因為優衣庫只提供了幾款標準化尺寸(S, M, L, XL),所以可以降低成本;但是如果是量體裁衣,你為一件衣服付出的費用,可遠不止衣服那幾塊布的價值了。
那在商業智能領域,直接的體現就是,每家公司都需要專門僱傭昂貴的商業數據分析團隊,他們首先要是專業的數據分析師出生,精通各種統計、機器學習、數據挖掘的演算法;其次,他們又需要非常了解公司的業務情況,才能有針對性的去收集、分析數據,以帶來公司的增長。這樣的團隊,無疑是非常非常昂貴的;況且優秀的數據分析師這麼稀缺,小公司想招也招不到啊。
【商業智能的半標準化探索】
但是,業界有這麼一種思路,讓我看到了商業智能標準化的希望。
國內有這麼2家2B廠商:友盟和金蝶。這兩家公司都有一些共性,他們都是「前商業智能化時代」的產物。即,他們的第一代產品,可以說,跟智能可能沒沾邊太多。比如友盟無非就是簡化App埋點這個工作;金蝶就是幫企業做ERP系統,讓他們流程更高效一點。
雖然不智能化吧,但是很重要的一點是,他們把這個做成標準化了。到目前為止,已經有千千萬萬的App接入了友盟做埋點和數據統計;金蝶ERP已經成為現在企業的事實標準,企業很多流程、管理已經對接了金蝶定義的這套標準。
所以,基於這個事實,這兩者是有資本把商業智能給標準化的公司。他們確實也是這麼做的。
比如友盟,1月份去極客公園大會聽了他們數據團隊的leader的一個講座,感觸非常深。他們從埋點起家,現在已經可以漸漸的幫APP開發者做一些基本的數據統計、預測工作了:http://www.geekpark.net/topics/217742
再比如金蝶。金蝶很長一段時間,一直是ERP企業裡面的大象。有無數企業,已經適配了金蝶定義的各種企業管理流程,比如工單流轉啊、客戶管理啊。最近金蝶在此基礎上,推他們的雲ERP。一方面是為了降低企業的費用和部署成本。但我認為,其在AI時代的戰略意義是更重要的部分。
既然有這麼多企業已經對接了金蝶的ERP,就可以針對這種普適化大眾需求,幫你分析你的工單延遲性、客戶留存度這種比較常見的指標。(就像優衣庫,在價格壓力下,雖然不能完全量體裁衣,但至少也會推出S M L XL四擋尺寸供選擇)雖然離完全客制化還有一段距離,但是已經在保證低成本的情況下,向智能化邁出了重要的一步了。
當然,友盟、金蝶這樣提供的這些商業智能,畢竟只能以照顧大多數企業的共同需求為主。要真正做好商業智能,還任重而道遠。Facebook的Growth平台,有每個用戶的畫像和相關的配套工具;公司在做商業決策的時候——比如是否要上線一個新的feature,可以利用內部的工具平台,迅速作出決策、對比試驗,以數據來支持決策。
對於普通企業,我覺得在無法深挖數據做商業智能的時候,至少可以在數據採集準備上面做好準備,適當的結合友盟、金蝶這樣的現成工具幫助企業執行簡單的邏輯。等以後有資源了,你也可以投入人力財力去挖掘現有的數據,優化未來的商業決策。
1. 以map/reduce為代表的分散式並行計算(如果這個算雲計算)實際上不是一種聰明的演算法甚至不是一種演算法,它只是便於演算法實現的基礎架構而已。
2. 雲計算不能加快任何演算法的速度,它只是使子問題的並行執行變得更方便而已。
3. 搜索是一個易於實現並行化的應用,所以目前絕大多數雲計算運用都和搜索有著某種關聯。4. 並行計算不是一件新事物,如果節點之間的信息需要大量共享,那麼map/reduce這類方法就失去了吸引力。5. 對於計算密集型的數據分析或數據挖掘演算法時,你會遇到意外的障礙,而雲計算很可能幫不了你什麼。6. 雖然有很多人很多文章談到了雲計算與大數據,而且頭頭是道。但是,只要假想一個簡單的組合問題,比如哪些關鍵因素決定了一部電影的票房,然後在紙上寫下你的解決步驟和大致演算法,你就會發現一堆吹爆的牛皮。簡單看法:互聯網通過連接全球各種智能設備的用戶帶來信息革命,大量個體信息彙集成海量卻雜亂無章的互聯網信息系統。雲計算通過互聯網提供全球用戶計算力、存儲服務,為互聯網信息處理提供硬體基礎。大數據運用日趨成熟的雲計算技術從浩瀚的互聯網信息海洋中獲得有價值的信息進行信息歸納、檢索、整合,為互聯網信息處理提供軟體基礎。商業智能是互聯網信息系統有序化後的一種商業應用。
雲計算、大數據和商業智能的關係簡單地理解就是:
商業智能中的智能從何而來? 方法之一就是通過大數據這個工具來對大量數據進行處理,從而得出一些關聯性的結論,從這些關聯性中來獲得答案,因此,大數據是商業智能的一種工具。 而大數據要分析大量的數據,這對於系統的計算能力和處理能力要求是非常高的,傳統的方式是需要一個超級計算機來進行處理,但這樣就導致了計算能力空的時候閑著、忙的時候又不夠的問題, 而雲計算的彈性擴展和水平擴展的模式很適合計算能力按需調用,因此,雲計算為大數據提供了計算能力和資源等物質基礎。
總結說來就是商業智能的一個有力工具是大數據,大數據的計算資源和能力的理想的提供方式是通過雲計算。
在談大數據的時候,首先談到的就是大數據的4V特性,即類型複雜,海量,快速和價值。IBM原來談大數據的時候談3V,沒有價值這個V。而實際我們來看4V更加恰當,價值才是大數據問題解決的最終目標,其它3V都是為價值目標服務。在有了4V的概念後,就很容易簡化的來理解大數據的核心,即大數據的總體架構包括三層,數據存儲,數據處理和數據分析。類型複雜和海量由數據存儲層解決,快速和時效性要求由數據處理層解決,價值由數據分析層解決。
數據先要通過存儲層存儲下來,然後根據數據需求和目標來建立相應的數據模型和數據分析指標體系對數據進行分析產生價值。而中間的時效性又通過中間數據處理層提供的強大的並行計算和分散式計算能力來完成。三層相互配合,讓大數據最終產生價值。
數據存儲層
數據有很多分法,有結構化,半結構化,非結構化;也有元數據,主數據,業務數據;還可以分為GIS,視頻,文件,語音,業務交易類各種數據。傳統的結構化資料庫已經無法滿足數據多樣性的存儲要求,因此在RDBMS基礎上增加了兩種類型,一種是hdfs可以直接應用於非結構化文件存儲,一種是nosql類資料庫,可以應用於結構化和半結構化數據存儲。
從存儲層的搭建來說,關係型資料庫,NoSQL資料庫和hdfs分散式文件系統三種存儲方式都需要。業務應用根據實際的情況選擇不同的存儲模式,但是為了業務的存儲和讀取方便性,我們可以對存儲層進一步的封裝,形成一個統一的共享存儲服務層,簡化這種操作。從用戶來講並不關心底層存儲細節,只關心數據的存儲和讀取的方便性,通過共享數據存儲層可以實現在存儲上的應用和存儲基礎設置的徹底解耦。
數據處理層
數據處理層核心解決問題在於數據存儲出現分散式後帶來的數據處理上的複雜度,海量存儲後帶來了數據處理上的時效性要求,這些都是數據處理層要解決的問題。
在傳統的雲相關技術架構上,可以將hive,pig和hadoop-mapreduce框架相關的技術內容全部劃入到數據處理層的能力。原來我思考的是將hive劃入到數據分析層能力不合適,因為hive重點還是在真正處理下的複雜查詢的拆分,查詢結果的重新聚合,而mapreduce本身又實現真正的分散式處理能力。
mapreduce只是實現了一個分散式計算的框架和邏輯,而真正的分析需求的拆分,分析結果的匯總和合併還是需要hive層的能力整合。最終的目的很簡單,即支持分散式架構下的時效性要求。
數據分析層
最後回到分析層,分析層重點是真正挖掘大數據的價值所在,而價值的挖掘核心又在於數據分析和挖掘。那麼數據分析層核心仍然在於傳統的BI分析的內容。包括數據的維度分析,數據的切片,數據的上鑽和下鑽,cube等。
數據分析我只關注兩個內容,一個就是傳統數據倉庫下的數據建模,在該數據模型下需要支持上面各種分析方法和分析策略;其次是根據業務目標和業務需求建立的KPI指標體系,對應指標體系的分析模型和分析方法。解決這兩個問題基本解決數據分析的問題。
傳統的BI分析通過大量的ETL數據抽取和集中化,形成一個完整的數據倉庫,而基於大數據的BI分析,可能並沒有一個集中化的數據倉庫,或者將數據倉庫本身也是分散式的了,BI分析的基本方法和思路並沒有變化,但是落地到執行的數據存儲和數據處理方法卻發生了大變化。
談了這麼多,核心還是想說明大數據兩大核心為雲技術和BI,離開雲技術大數據沒有根基和落地可能,離開BI和價值,大數據又變化為捨本逐末,丟棄關鍵目標。簡單總結就是大數據目標驅動是BI,大數據實施落地式雲技術。大數據其實是徐子沛等包裝出來的一個詞,無非就是3v,雲計算,商業智能等也差不多,但是最近幾年大家都喜歡把各種故事往裡面塞,現在各種會議不說個大數據 雲計算都不好意思發請帖,企業裡面更是搞個報表的,搞個運維的,搞個etl的都說自己是搞大數據的。 所以,大數據就是個殼而已,各種跟數據搭上邊的工作,為了包裝自己,都喜歡跟大數據貼上,今年面試了近兩百人吧,發現隨著大數據這個行業的興起,很多做報表提取的,做數據的,甚至拿數據做過PPT的 做戰略規劃的,都說自己是大數據專家,其實一方面是行業的 幸運,說明短期內還是會有很多工作崗位,不會失業的,另一方面說明這個行業的水份越來越大,很多並不跟數據沾邊的人轉到這個行業 ,造成浮誇和失真的現狀。 其實面對數據,我覺得,一個最本質的問題是,在解決一個問題是,是機器決策還是人去決策,而這個問題的背後,是一個更本質的問題,數據對你是一個通用技能,還是專業技能。舉一個例子,今天晚上要是是下雨,這時候 ,如果一個農民根據其經驗,判斷明天會繼續下雨,那麼,這實際上就是商業智能,農民同志並不需要是專門做數據的,他只要有獲知目前天氣數據現狀這個能力或者渠道,他就能進一步作出這個決策,明天要下雨了。同理,商業智能,就是為人把數據準備好,然後去做決定。目前中小企業的大數據,說白了,就是在這個階段,所以行業的BI,都在強調業務sense,強調業務比技術重要,因為本質上,數據並沒有做任何決策,需要人去做決策。而人並不是可靠的,同時還存在不同的人對數據有不同解讀的風險,如看活躍用戶,還是看下單用戶,並沒有一個確定的標準,誰對誰錯,最後可能是權力大的人說了算。所以這就是商業智能的極限或者局限。如moneyball的原型紅襪隊,在美國很成功,結果老闆亨利收購了我利物浦之後,相信全世界利物浦論壇裡面罵亨利都是熱門的話題,這個不細表。這是國內很多企業目前對大數據的理解,不作好壞判斷,但是對於很多日常工作就是做報表提數據的BI同行們來說,詳細你們懂我的意思。 所以若是把數據作為一個專業技能,那就首先要承認人性的局限,即人的決策不能很好的搞定一切,所以有了機器學習。以智能推薦,風控為例,數據,不僅僅是報表呈現,而是經過特徵工程,分類,建模等等之後,形成一個可以直接進行決策數據,如哪個用戶喜歡哪個產品,當然,在實際工作中,人工的因素肯定還是存在,如人為調整權重,人為修改排序等等,但是我們不得不承認,離開了機器的計算和判斷,人已經不能100%的勝任這些計算了。最近在根據人的移動軌跡判斷人的風險屬性等等,已經計劃用上深度學習等模式了,其實就是不僅僅把數據當成數據,而是希望其能像人一樣思考。 回歸題目,我覺得現在大數據這個殼拋開不談,數據其實就分為兩部分,一是幫助人去做決策的商業智能部分,為決策者生成各種各樣的數據,幫助其結合自己的經驗去思考,上周去參觀dji無人機,他們確實已經通過航拍,記錄運動員軌跡來幫助交流按去決策了,注意,是幫助教練去決策,二是數據通過演算法,能自動學習和判斷的數據智能,如推薦,人的作用是輔助和補充。至於從我目前的工作的淺薄檢驗,我認為典型的數據演算法工作場景是這樣的:spark,r ,python等必備工具,熟練從各種源獲得數據,結合業務需求,能對模型進行工程化(必須是工程化)讓數據自動進行預測決策,並且自動在各場景做決策判斷,目前spark和gpu計算已經是大勢所趨。其餘的,則是BI 。當然,這兩塊都是數據工作的重要組成部分,但是我覺得前者才是所謂大數據崗位 的未來,因為BI 到最後 完全可以成為一個工具,人人都是數據分析師,數據成為一個通用技能。這是數據讓人更聰明,讓事情更智能的必然方向。至於雲計算,其實,你搭個spark集群,遠程登陸一下就是雲了,讓公司外面的人用一下集群上的api,就是雲計算了,反而沒啥深刻的內涵的,做多是怎麼解決並行,計算效率的問題,那是開發工程師的問題了。
看了幾個答案,都是羅列定義和概念,簡單說個最通俗易懂的但是最核心的區別。現在概念上的雲計算,IaaS,PaaS,SaaS。IaaS和PaaS是解決IT裡面的「T」的。現在用的基本都是虛擬化軟體,將一個大資源分解到多個資源的(1到N)。
而大數據是為了解決"I"的,關注於上層的數據分析和預測。而底層是分散式架構,將多台X86資源整合到一個大的數據平台上(N到1)。
對於未來發展,雲計算2.0是包括大數據的。我們可以將大數據也看做一種既服務 - DaaS。將數據分析聚類的結果作為數據產品打包進行服務。所以這兩者之間是相互依存的關係。google提出了雲計算的概念,但在之後大家的火熱討論中,雲計算這個詞包含了主要兩類含義:一是以google的GFS和MapReduce為代表的大規模分散式並行計算技術;一是指以亞馬遜的虛擬機和對象存儲為代表的按需租用的商業模式。
後來慢慢細分出了大數據的概念,主要指雲計算技術,如Hadoop、MPP、NOSQL,雲計算指的是商業模式,如IAAS、PAAS、SAAS。
符合雲計算商業模式的產品服務,背後的技術未必是大數據,當然也可以是大數據;而大數據技術研究也未必發布出了雲計算產品服務。我個人覺得最好的解釋(不一定全面)如下:
雲計算=&>著重於存儲(物理內存,存儲)大數據=&>著重於數據,在雲計算的基礎上將數據整合與存儲商業智能=&>在大數據的基礎上,數據建模,數據挖掘=&>用展現工具,將數據有規律的Show出來。雲計算是基礎設施的集約化,大數據是信息架構的集約化,兩者有聯繫,但並非一定綁在一起。我對大數據的觀點和主流觀點有些不同,雖然大家都在講4V,但是從客戶需求的統計來看,所謂海量或者快速增長還是個例,全世界也就那麼幾個linkedin,taobao,facebook,google。更多企業需要的是數據流的拉通和整合,是以信息為中心,重新調整企業IT架構的IT重構動作,以及把大量目前處於信息架構邊緣的數據整合到企業數據中心的動作。在這之上,更深的需求是信息的實時處理和實時響應。而海量數據,或者急速增長,只是某些行業或者某種類型的企業才會遇到。所以如果返回到4V概念上,我認為Value,Variety,Velocity(從處理程度上來說)更重要,而Volume和Velocity(從信息增長程度上來說)反而不那麼重要,所以大數據這個「大」字實在值得商榷。雲計算的模型確實可能給大數據的建設帶來好處,但是這個好處也並不一定體現在多租戶、按需使用或者自助服務上,而更多體現在資源池化,管理自動化上,從這個角度上來說,大數據和雲的聯繫並不是那麼的密切。
大數據基於雲計算來部署,包括分散式的存儲、計算、訪問服務。一般的雲計算公司都是指IaaS,而大數據的處理平台跨PaaS和SaaS,現在還在還新起一個數據即服務DaaS。大數據包括結構化數據和非結構化數據處理、數據倉庫、數據挖掘、離線計算/內存計算/流計算等等技術模塊。
從發現情景來看,大數據一定是後面至少10年的熱點。任何系統、任何公司的核心都是數據。現在流行hadoop,流行內存計算、內存數據網格等等,以後還會有更多的概念和技術,但本質都是為大數據服務。數據TB、PB、EB、ZB、YB的飆升,將誕生系列新的技術和產業。而對技術人員,新生的數據科學家Data Scientists,將是最有發展前景的職業。
上面的回答太專業了,看不懂,這麼打比方看對不對哈?
關係:
大數據:學校圖書館;商業智能:考試100分;雲計算:在你沒有去過圖書館的狀況下建立大腦跟圖書館的關係,讓你實現考100分。發展前景:圖書館——會越來越大、越來越全,最終啥都有;考試——會越來越接近100分;連接——傳輸速度會越來越快,傳輸的信息量越來越大。
還不太適應知乎體,篇幅真的好長啊。有個片子叫點球成金(Money Ball),不是講足球踢點球的,是講棒球的。看過的就好說了,沒看過的話看看也挺好,裡面有不辣的皮特,挺帥的 ^_^
所謂大數據就是美國幾十年每場比賽、每個球員的各種統計數據。當然大數據的衛道士們肯定罵我很土,這點數據也叫大數據啊?那麼我們再加上每場比賽的視頻數據吧,這個夠大吧?還非結構化呢。
商業智能幹啥呢,就是幫助咱們的不辣的皮特在不是怎麼有錢的情況下組建一支棒球隊的這位老兄做的事情。雖然咱沒錢但咱有顆冠軍的心啊(肯定不能組建國足那樣的隊是吧),也就是怎麼花有限的錢取得最好的戰績。這位老兄基於這些數據建了一套預測模型,來模擬不同的隊員組合的情況下球隊的勝率。聽起來很cool吧?其實本質還是對棒球比賽有很深的理解,並通過數字來刻畫它。
雲計算呢,影片中這個胖哥哥在自己的個人電腦上開發個程序就搞定這事了。但是既然是大數據一台電腦一定搞不定了,一定是需要很多台機器的「雲」來搞定了。所謂雲你就理解為可以按需分配資源,想要就有能給你多少資源的計算集群。而至於偏技術層面的解釋如果你懂技術可以自己查,如果不懂我覺得理解到這個層面就夠了?First,我先來闡述一下雲計算和大數據是什麼東西,這兩者目前沒有什麼確切的官方定義,一下純為我的經驗之談。
雲計算在我看來核心就是X as a Service,也就是說傳統IT平台內的任意組件都可以對外提供服務。舉個簡單的例子,傳統IDC內有計算服務,也就是伺服器,如果將資源池化之後做成一個個虛擬機,然後以租借的方式租出去,然後按需要收費,這個其實就是所謂的ECS:Elastic Compute Service彈性計算服務,其實就是把伺服器當作服務提供了。同樣的還有資料庫服務、虛擬網路等等。按照服務類別劃分的話,大體上承認的也就是IPS as a Service(基礎設施,軟體服務和平台中間件即服務),對於IaaS,我個人傾向於40%虛擬化+30%存儲+30%網路這麼個比例;對於PaaS,就是把我們常用的中間件以服務的形式對外提供;對於SaaS,則為雲端軟體形式對外提供服務,如Office365。關於大數據呢,一直以來很多人對於大數據和雲計算的認知是這倆貨在一起(跟客戶聊天的時候我就發現了這種認識不在少數),但實際上,大數據平台可以依託於傳統IT服務,也可以依託於雲服務,這個取決於大數據平台的大小和伸縮性,如果伸縮性很高的話,雲IaaS是不錯的選擇。什麼是大數據呢:大數據直觀的感受就是數據量大,其實量大不是關鍵,關鍵的是大數據中數據量不僅大,而且種類還多,比如傳統SQL結構化數據,甚至還有半結構化數據和非結構化數據,大數據平台的作用就是儲存、管理、維護這些數據,至於使用的話,是交給大數據平台應用去處理的(比如某動公司的一些系統就用到了Hadoop平台)。再來解釋一下Hadoop,Hadoop其實是一個數據處理平台,它裡面有若干組件,比如MapReduce作業處理、HBase數據倉庫、MQ消息隊列、BI Stone等等。關於大數據和雲計算的關係呢,怎麼說呢,可以說有關係,也可以說是沒關係,這個還是取決於企業業務需求和生產環境的實施和部署,針對具體應用場景採取不同的框架和策略,達到效益最大化。自下而上,應從雲計算、大數據到商業智能,這三者的關係上看,雲計算是基礎,負責資源整合與優化,大數據是支撐,負責海量數據收集與統計,商業智能是外在應用表現,負責BI智能分析與輔助決策。
大數據是信息源,雲計算是技術與信息處理加反饋,商業智能是應用與一個目標。
雲計算是大數據的基礎。有了雲計算,處理大數據的成本降低,運用大數據進行分析才有了可行性。
雲計算:就是個炒得很熱的商業概念,其實說白了就是將計算任務轉移到伺服器端,用戶只需要個顯示器就行了,不過伺服器的計算資源可以轉包。當然,要想大規模商業化,這裡還有些問題,特別是隱私保護問題。
大數據:說白了就是數據太多了。如今幾兆的數據在20年前也是大數據。但如今所說的大數據特殊在哪呢?如今的問題是數據實在是太多了,這已經超過了傳統計算機的處理能力(區別與量子計算機),所以對於大數據我們不得不用一些折衷的辦法(比如數據挖掘),就是說沒必要所有數據都需要精確管理,實際上有效數據很有限,用數據挖掘的方法把這些有限的知識提取出來就行了。·此外,數據抽樣,數據壓縮也是解決大數據問題的一些策略。
商業智能:就是對商業信息的搜集、管理和分析過程,目的是使企業的各級決策者獲得知識或洞察力,促使他們做出對企業更有利的決策。商業智能一般由數據倉庫、聯機分析處理、數據挖掘、數據備份和恢復等部分組成。商業智能的實現涉及到軟體、硬體、諮詢服務及應用,其基本體系結構包括數據倉庫、聯機分析處理和數據挖掘三個部分。因此,把商業智能看成是一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合併到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。
推薦閱讀:
※數據分析和商業智能的區別?
※銀行信貸系統和銀行核心系統間哪些關聯?
※百億條數據量的oracle資料庫優化?
※有哪些操作比較簡單的數據可視化系統?
※Tableau和QlikView的優點、缺點、區別?