大數據的關鍵技術
07-12
大數據的關鍵技術
推薦閱讀:
我們之前了解了大數據現在已經達到什麼地步,以及它現在主要做了哪些事情,也稍微了解一下,現在大多數的大數據公司都是怎麼做的,接下來了解大數據的四個關鍵技術。
- 數據採集、預處理與存儲技術。數據採集,與之相關的有數據採集師這個崗位,大多數情況下是用python語言來做的。預處理我們管它叫ETL,就是信息提取,會把一些噪音去掉,然後提取一些關鍵信息。大多數也都是基於python+spark技術來做。存儲就是HDFS技術。
- 數據分析以及數據挖掘。這部分主要是基於sparkSQL,以及一些演算法方面相關的技術。spark推薦Python或者Scala
- 數據安全和隱私保護。這塊涉及比較少,主要是基於Cobol來做的。
- 數據的中心體系機構,下圖很好的做了解釋,最底下是源數據,主要通過日誌、探針等方式來採取一些結構化、非結構化的數據。往上一層把數據進行提取、整合,之後加一些演算法和規則,算出來特徵屬性,之後做清洗,然後把數據存起來。最後就是一些計算和挖掘出的一些現成的數據做數據可視化。
推薦閱讀:
※機器學習評估指標
※謝小嬌學了想改行之最大熵模型
※24個終極數據科學項目(可免費獲取資源)
※怎樣理解時間序列二
※推薦演算法入門(2)Python 手寫 SVD 與 Funk-SVD 篇