盤點 | 2017 最「熱」門的十大數據技術
原作者 Gil Press
編譯 CDA 編譯團隊
本文為 CDA 數據分析師原創作品,轉載需授權
隨著大數據近年來的迅速發展,大數據分析已滲透到各行各業。當中哪些技術最具市場需求,最有發展潛力?根據 Forrester 公司發布的指數,這裡列舉出當今十大熱門大數據技術。
1. 預測分析
指的是利用軟體和硬體解決方案,使公司能夠通過分析大數據源來收集、評估數據,同時優化、部署預測模型,從而提高業務水平或降低風險。
2. NoSQL 資料庫
Key-value 型( Redis )資料庫、文檔型(MonogoDB )資料庫、圖型( Neo4j )資料庫。
3. 搜索和知識發現
支持信息的自動抽取,可以從多數據源(例如文件系統,資料庫,流, API 和其他平台和應用程序)洞察結構化數據和非結構化數據。
4. 流式分析
軟體可以對多個不同的實況數據源和以任何數據格式進行數據清洗、聚合和分析。
5. 內存數據結構
通過動態隨機內存訪問( DRAM )、 Flash 和 SSD 等分散式存儲系統提供海量數據的低延時訪問和處理。
6. 分散式存儲系統
指存儲節點大於一個、數據保存多副本以及高性能的計算網路。
7. 數據可視化
指的是從各種數據源傳輸數據(包括 Hadoop 上的海量數據以及實時和接近實時的分散式數據)。
8. 數據集成
通過亞馬遜彈性 MR(EMR) 、 Hive 、 Pig 、 Spark 、 MapReduce、 Couchbase 、 Hadoop 和 MongoDB 等軟體進行業務數據整合。
9. 數據預處理
是指對大量數據源進行清洗、裁剪,清理並共享多樣化數據來加快數據分析。
10. 數據校驗
對分散式存儲系統和資料庫上的海量、高頻率數據集進行數據校驗,去除無效數據。
Forrester 的研究數據表明以上 10 項技術都預計將獲得巨大的發展。此外,每項技術基於起發展水平都處於從產生到消亡中的一個特定發展階段。上述前 8 個技術被認為處於增長階段,後 2 個處於生存階段。
Forrester 還對以上技術進入下一階段所需的時間進行了預估。預測分析是唯一一個進入下一個發展階段需要 10 年以上的。 上述技術中,從技術 2 到技術 8 預計在 3-5 年內進入下一階段,而最後兩項技術預計將在 1-3 年內從生存階段轉向增長階段。
最後,Forrester 對每種技術的業務增值進行評估。 這不僅基於潛在影響,還基於對市場的反饋。
Forrester 提到:「如果該技術處於發展的早期階段,其失敗的可能性大於發展較為完善的技術。」從商業增值角度來看,上述前兩項技術的商業增值較高,之後緊接著的兩項技術為中等,其餘為較低,毫無疑問這是因為其處於新興狀態且發展還不成熟。
ref:
Forbes Welcome
推薦閱讀:
※Data Structures公開課聽課筆記--序
※用數據找知己:驀然回首 那人卻在三十五萬用戶中
※從Excel到簡道雲,跳出傳統數據管理思維
※世界頂尖數據科學家忠告:別再被虛榮指標欺騙了!
※「銀聯消費數據」可以從哪裡獲取?