什麼是大數據技術,選擇合適的大數據技術平台需要注意什麼?
大數據時代的到來,是全球知名諮詢公司麥肯錫最早提出的,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
《互聯網進化論》一書中提出「互聯網的未來功能和結構將於人類大腦高度相似,也將具備互聯網虛擬感覺,虛擬運動,虛擬中樞,虛擬記憶神經系統」 ,並繪製了一幅互聯網虛擬大腦結構圖。
根據這一觀點,我們嘗試分析目前互聯網最流行的四個概念————-大數據,雲計算,物聯網和移動互聯網與傳統互聯網之間的關係。
從這幅圖中我們可以看出:
物聯網對應了互聯網的感覺和運動神經系統。
雲計算是互聯網的核心硬體層和核心軟體層的集合,也是互聯網中樞神經系統萌芽。
大數據代表了互聯網的信息層(數據海洋),是互聯網智慧和意識產生的基礎。
包括物聯網,傳統互聯網,移動互聯網在源源不斷的向互聯網大數據層匯聚數據和接受數據。
作為數據存儲巨頭,大數據理念是,首先從「大」入手,「大」肯定是指大型數據集,一般在10TB規模左右。很多用戶把多個數據集放在一起,形成PB級的數據量。同時從數據源來談,大數據是指這些數據來自多種數據源,以實時、迭代的方式來實現。
物聯網所需要感受的物件對象範圍非常之寬,物聯網收集數據,我們剛剛說虛擬東西也是物聯網對象,我們看很多東西收集,如瀏覽器、搜索引擎、智能終端、遊戲終端、GPS等,他通過大家日常網路留下痕迹和腳印獲取大量的數據。
物聯網產生大數據。美國人前幾年醫院一年產生500個數據,IMT1。4TB數據等各種的數據通過感測器產生,也有在網上直接產生的,我們現在處於大數據時代,物聯網一分鐘可以產生非常多的東西,蘋果下載2萬餘次,一分鐘會上傳10萬條新微博,全世界物聯網上虛擬網路上,產生了大量的數據。
從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分散式架構。它的特色在於對海量數據進行分散式數據挖掘,但它必須依託雲計算的分散式處理、分散式資料庫和雲存儲、虛擬化技術。
物聯網、移動互聯網再加上傳統互聯網,每天都在產生海量數據,而大數據又通過雲計算的形式,將這些數據篩選處理分析,提前出有用的信息,這就是大數據分析。所以說,大數據、雲計算、物聯網和互聯網都是密切相關的,國家大力倡導發展大數據產業,主要歸結於互聯網、移動設備、物聯網和雲計算等快速崛起,全球數據量大大提升。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
大數據(bigdata),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據特徵分析
大數據,不僅有「大」這個特點,除此之外,它還有很多其他特色。在這方面,業界各個廠商都有自己獨特的見解,但是總體而言,可以用「4V+1C」來概括,「4V+1C分別代表了Variety(多樣化)、Volume(海量)、Velocity(快速)、Vitality(靈活)以及Complexity(複雜)這五個單詞。
1、Variety(多樣化)
大數據一般包括以事務為代表的結構化數據、以網頁為代表的半結構化數據和以視頻和語音信息為代表的非結構化等多類數據,並且它們的處理和分析方式區別很大。
與大數據現象有關的數據量為嘗試處理它的數據中心帶來了新的挑戰:它多樣的種類。隨著感測器、智能設備以及社交協作技術的激增,企業中的數據也變得更加複雜,簡言之,種類表示所有的數據類型。
2、Volume(海量)
如今存儲的數據數量正在急劇增長,毫無疑問我們正深陷在數據之中。我們存儲所有事物:環境數據、財務數據、醫療數據、監控數據等。有關數據量的對話已從TB級別轉向PB級別,並且不可避免地會轉向ZB級。現在經常聽到一些企業使用存儲集群來保存數PB的數據。隨著可供企業使用的數據量不斷增長,可處理、理解和分析的數據比例卻不斷下降。
3、Velocity(快速)
大數據要求快速處理,因為有些數據存在時效性。比如電商的數據,假如今天數據的分析結果要等到明天才能得到,那麼將會使電商很難做類似補貨這樣的決策,從而導致這些數據失去了分析的意義。
4、Vitality(靈活)
在互聯網時代,和以往相比,企業的業務需求更新的頻率加快了很多,那麼相關大數據的分析和處理模型必須快速地適應新的業務需求。
5、Complexity(複雜)
雖然傳統的BI已經很複雜了,但是由於前面4個V的存在,使得針對大數據的處理和分析更艱巨,並且過去那套基於關係型資料庫的BI開始有點不合時宜了,同時也需要根據不同的業務場景,採取不同的處理方式和工具。
大數據技術平台的選擇:
選擇一個合適的大數據技術平台是非常重要的,它能夠使得大數據應用開發更加容易、讓開發人員更集中精力在業務層面的數據分析與處理上。一些共性的基礎問題,例如數據如何存儲、如何檢索、數據統計等,就可以由平台來完成。選擇合適的大數據技術平台應當考慮以下因素:
? 平台的功能與性能:
由於不同平台側重的功能不同,平台的性能也就有很多需要考察的方面。比如對於存儲平台來說,數據的存儲效率、讀寫效率、並發訪問能力、對結構化與非結構化數據存儲的支持,所提供的數據訪問介面等方面就是比較重要的。對於大數據挖掘平台來說,所支持的挖掘演算法、演算法的封裝程度、數據挖掘結果的展示能力、挖掘演算法的時間和空間複雜度等,是比較重要的指標。
? 平台的集成度:
好的平台應該具有較高的集成度,為用戶提供良好的操作界面,具有完善的幫助和使用手冊、系統易於配置、移植性好。同時隨著目前軟體開源的趨勢,開源平台有助於其版本的快速升級,儘快發現其中的bug,此外,開源的架構也比較容易進行擴展,植入更多的新演算法,這對於最終用戶而言也是比較重要的。
? 是否符合技術發展趨勢:
大數據技術是當前發展和研究的熱點,其最終將走向逐步成熟,可以預見在這個過程中,並非所有的技術平台都能生存下來。只有符合技術發展趨勢的技術平台才會被用戶、被技術開發人員所接受。因此,一些不支持分散式、集群計算的平台大概只能針對較小的數據量,側重於對挖掘演算法的驗證。而與雲計算、物聯網、人工智慧聯繫密切的技術平台將成為主流,是技術發展趨勢。
同時應當充分意識到,技術迭代更新速度加快,當我們花很多時間去掌握熟悉某種技術平台後,可能新的更好的技術平台出現了,導致我們受累奔波於各種技術平台,因此,最好的策略就是全面系統地掌握大數據技術的原理和實現方案,這樣學習新的技術平台就很容易上手。
推薦閱讀:
※大數據下你需要什麼樣的服務么?
※大數據採集、清洗、處理 案例
※「中國菜」大數據出爐! 上海10道名菜入圍,儂吃過哪幾道?
※機器學習實戰|GBDT Xgboost LightGBM對比
※spark讀parquet目錄遇到的元數據文件不完整的問題