討論kettle 的重要性

辭職以後,解決了人生的一大問題,那就是買房了,花了2個月時間,深入研究了房地產市場。開始找工作,去面了 一步單車,公司非常nb了。他們要招聘的分析師需要會 sql 和 會自己做數據倉庫,由於我說自己不會 etl工具,然後就沒有下文了。

最後去了某大型食品集團企業(保密),新零售事業部。由於新產品開發 研發力量非常吃緊,我就只有一個人挑大樑。研發只提供一個 實時更新的遠程資料庫,沒得法一切都要自己來。花了周末把kettle學會了,確實解決了很多問題,也就是一個周末2天的時間,自己搞定了。如果你的數據量不大的情況下,先寫好視圖,spss modeler 做全量更新。其實也可以做增量,不過需要手動。

kettle 確實可以解決很多問題,開發效率比起 python 的pandas 包要快一些。之前差點自己就用 pandas 來寫了。很多時候,企業招人的時候,不願意再招一個技術,希望分析也把技術的事情做了。相對於做了幾年的分析來說,學習一下 kettle 時很簡單的事情。學習python要難的多。

不過學習 kettle 坑很多,首先需要你自己把環境配置好,然後就是找到合適的資料教程。我就是找了一個 講的很差的視頻教程,花了很多時間看了,沒有解決實際問題。又看了1套,終於把問題講清楚了,看書的話 那就很慢了。

找的資料都是比較老的了,4年前了。等有了時間,我也自己做一套kettle 課程出來,需要的朋友 關注我們公眾號 dmercn,到時候會發在 公眾號上面通知大家。如下是目前做 bi 產品開發的一些組件。

推薦閱讀:

R語言實戰—02-創建數據集
惠眾在線行業情報|互聯網改變下的傳統節日
如何用Python來EDA數據分析
【翻譯】《利用Python進行數據分析·第2版》第4章(下)NumPy基礎:數組和矢量計算
Python SimPy 模擬系列 (2)

TAG:數據分析師 | 數據分析 |