大數據的關鍵技術

大數據的關鍵技術

我們之前了解了大數據現在已經達到什麼地步,以及它現在主要做了哪些事情,也稍微了解一下,現在大多數的大數據公司都是怎麼做的,接下來了解大數據的四個關鍵技術。

  1. 數據採集、預處理與存儲技術。數據採集,與之相關的有數據採集師這個崗位,大多數情況下是用python語言來做的。預處理我們管它叫ETL,就是信息提取,會把一些噪音去掉,然後提取一些關鍵信息。大多數也都是基於python+spark技術來做。存儲就是HDFS技術。
  2. 數據分析以及數據挖掘。這部分主要是基於sparkSQL,以及一些演算法方面相關的技術。spark推薦Python或者Scala
  3. 數據安全和隱私保護。這塊涉及比較少,主要是基於Cobol來做的。
  4. 數據的中心體系機構,下圖很好的做了解釋,最底下是源數據,主要通過日誌、探針等方式來採取一些結構化、非結構化的數據。往上一層把數據進行提取、整合,之後加一些演算法和規則,算出來特徵屬性,之後做清洗,然後把數據存起來。最後就是一些計算和挖掘出的一些現成的數據做數據可視化。


推薦閱讀:

機器學習評估指標
謝小嬌學了想改行之最大熵模型
24個終極數據科學項目(可免費獲取資源)
怎樣理解時間序列二
推薦演算法入門(2)Python 手寫 SVD 與 Funk-SVD 篇

TAG:數據挖掘 | 大數據 | 大數據分析 |