標籤:

阿里巴巴大數據之路-數據挖掘中台

2012年以前,由於數據的規模還不是特別龐大,大部分挖掘應用所需處理的樣本量在百萬以內,而處理的特徵一般也少於100維,那時像SAS、SPSS、Clementine等單機版的數據挖掘軟體已經能滿足大部分挖掘應用的需求。

隨著數據量的爆炸,如今挖掘平檯面對的訓練數據量動輒上億,特徵維度動輒百萬,因此需要分散式、可視化的數據挖掘演算法平台。

就數據挖掘的商業場景而言,可以分為兩大類:個體挖掘和關係挖掘。個體挖掘是指對單個實體的行為特徵進行預測與分析,關係挖掘是指研究多個實體間的關係特徵,如商品的相似關係和競爭關係。

就數據挖掘的技術而言,可以分為兩大類:數據挖掘數據中台、數據挖掘演算法中台。

1、數據中台

  • 數據挖掘的過程中包括兩類數據:特徵數據和結果數據。演算法需要的特徵變數就是特徵數據,演算法最終輸出的商品銷量的預測結果就是結果數據。
  • 對於特徵數據,挖掘項目中80%的時間可能都是在處理特徵,這些特徵的提取、清洗、標準化以及基於業務場景的再組合和二次加工往往工作繁重。因此,就想到可以按照標準、規範構建一個全局特徵庫,每個挖掘工程師只需訪問幾張物理表就能迅速搜集到大部分自己想要的特徵。
  • 對於結果數據,可以進行分層存儲:通用結果和個性化結果。
  • 基於以上分析,可以把挖掘數據中台分為三層:特徵層FDM(Featural Data Mining Layer)、個體中間層IDM(Individual Data Mining Layer)、關係中間層RDM(Relational Data Mining Layer)和應用層ADM(Application-oriented Data Mining Layer);分層架構見下圖。
  • 特徵層:用於存儲在模型訓練前常用的特徵指標,並進行統一的清洗和去噪處理。
  • 中間層:個體中間層IDM和關係中間層RDM統一稱為中間層。其中,IDM面向個體挖掘場景,用於存儲通用性強的結果數據;RDM面向關係挖掘場景,用於存儲通用性強的結果數據。
  • 應用層:用來沉澱比較個性應用的數據挖掘結果指標。

2、演算法平台

  • 演算法中台的建設目的是從各種各樣的挖掘場景中抽象出有代表性的幾類場景,並形成相應的方法論和實操模板。
  • 比較有代表性的數據挖掘應用場景:


推薦閱讀:

大數據計數原理1+0=1這你都不會算(六)No.57
大數據計數原理1+0=1這你都不會算(四)No.52
堆內和堆外
扯個關於大數據的淡
為互聯網金融加把鎖?天元數據網用實力說話!

TAG:大數據 |