DataikuDSS — 1.基本介紹

DataikuDSS — 1.基本介紹

來自專欄 DataikuDSS4 人贊了文章

從剛開始接觸Dataiku DSS到現在接近兩年時間,最初是在公司的產品分享會上看到這款產品的,好奇的緣故下載試用,後續才有各種維度的體驗和研究。本文主要從使用的角度來簡單介紹Dataiku DSS的一些理念。

通過Dataiku官網自身的介紹,Dataiku DSS(Data Science Studio)是一款協作式的數據科學平台(Collaborative Data Science Platform),主要面向的用戶是數據分析師、數據科學家、數據工程師和業務分析師(這麼多角色基本上包含了玩數據的所有人了),解決的主要問題是讓上面這些角色更快速、有效的探索數據、構建、交付數據產品。說到底,就是通過工具來提高數據相關從業者的生產力,讓人和工具配合起來更快的挖掘數據價值。其實類似的平台和工具很多,不管是Excel、Spss、jupyter、谷歌、微軟azure和阿里雲里中的部分工具都是為了解決類似的問題,只不過不同階段數據量、人員素質等外界環境和需求的不同,各階段面向不同用戶各類產品的特性有所區別。

這裡面提到的「數據科學平台」(Data Science Platforms)其實是這兩年的一個新詞,後期可能會更為普及。Gartner 2017年的魔力象限中也出現了這個詞,其實在2016年的Gartner報告中叫「高級分析平台」(Advanced Analytics Platforms)。關於數據科學平台的概念沒有太統一的概念,可以參考一些企業對「數據科學平台」的定義。

Data science platforms are on the rise and IBM is leading the way Data Science Platform: What is it? Why is it Important what-is-a-data-science-platform

同樣在2017年Dataiku出現在了Gartner的魔力象限中。下面兩個圖是2017、2018數據科學平台的魔力象限。2017年進入魔力象限,2018有退步的節奏。

參考:kdnuggets.com/2017/02/g

參考:kdnuggets.com/2018/02/g

回來說Dataiku DSS的產品,對於一個門檻比較高,面向特定群體的產品,裡面其實定義了不少概念。主要概念包括:

數據集(DataSet)

在Dataiku DSS中,數據集可以是任何數據,但需要擁有表格的性質。類似orders.csv這樣的文件是一個數據集,Excel文件中的sheet也是一個數據集。因此,數據集可能對應一個Excel文件,或者關係資料庫中的表,或者分散式文件系統中的一個目錄或文件。

在Dataiku DSS中,創建一個數據集意味著你只需告訴Dataiku DSS怎樣連接這個數據。數據集會記住數據的原始位置,數據並不會拷貝至DSS。DSS的數據集是原始系統中數據的一個視圖。

處理方法(Recipe)

Recipe這個詞在數據科學類的平台中已經比較常見。在Dataiku DSS中的定義是構建數據應用的一塊積木,對數據的每一次轉換、join、group by、distinct 都可以叫做一個Recipe。Recipe是有輸入輸出的,輸入是數據集、輸出也是數據集。Recipe表示了如何從一個輸入數據集轉化為一個輸出數據集的邏輯。

Dataiku DSS支持的Recipe如下:

  • 可視化的數據準備(查找替換、join、group by、split等等)
  • SQL查詢
  • Python代碼
  • Pig代碼
  • Hive查詢
  • 同步輸入數據集數據到輸出數據集

項目(Project)

Dataiku DSS項目是為完成某一個業務目標所做工作的容器。項目更像是一種資源的組織方式,裡面包括了數據集、Recipe、訓練的模型、人以及人之間的評論。項目的首頁類似一個Dashboard,在這裡可以看到項目的所有狀態、最近的活動、協作的評論、標籤以及項目的待辦列表。在整個項目中另外一個重要的視圖是Flow,Flow其實是根據用戶的操作,將由數據集、recipe、模型(Model)自動連起來的一個有向無環圖。正方形表示數據集(DataSet)、圓圈表示Recipe、菱形表示訓練出來的模型。

以上這些概念是Dataiku DSS產品的一些對象抽象,更偏向與技術層面。從使用角度來看,Dataiku DSS最大的優點其實是友好的體驗:安裝簡單、數據處理速度快(抽樣數據上可視化實時處理,給人的感覺很快)、UE出眾以及尊重數據科學家的工作方式。首次下載安裝社區版,點擊滑鼠基本上就能順利的在Mac上完成安裝,最後彈出登錄頁面,用默認的用戶名和密碼登錄進去就能玩起來了。這個過程非常簡單,普通的小白用戶也能快速的安裝使用。在數據探索階段,令人影響深刻的是響應和數據處理速度快,就軟體本身的性能而言可能沒有那麼優秀,但由於採用了抽樣和可視化的方式,給用戶的感受的確非常的靈敏。另外,產品的整個UE雖然風格有些地方不統一,但是在同類產品中已經領先不少,給用戶的感覺非常清爽。以上這些特點主要服務於數據分析師,此外至關重要的一點是為數據科學家提供了寫代碼的方式,還提供了Dataiku DSS數據集轉化成原生DataFrame的能力和轉化模板,所以數據科學家只要關注自己的業務邏輯即可,不用擔心自己代碼與Dataiku 數據集的衝突。

本篇對Dataiku做了簡單的介紹,後續會繼續詳細的介紹Dataiku各個概念和整體流程中比較有意思的設計和使用方式。大概主要包括:

1.開篇介紹 — 產品定位、用戶、功能、能力

2.基本概念介紹 —— 2.1 2.2

3.創建數據集、探索數據

4.可視化recipe介紹 — prepare介紹

5.Code Recipe介紹

6.Lab介紹-analysis

7.可視化預測模型

8.調度編排scenario


推薦閱讀:

想從事數據科學相關崗位,這些數學基礎是成功的「必備」
邁向職業的第一步:24個終極數據科學項目
時序異常檢測演算法概覽
10本免費的機器學習和數據科學書籍

TAG:數據科學 | 數據分析 | 數據分析師 |