Docker+IPython,搭建線上數據分析環境

今天簡單說下數據分析的工具技巧。

IPython notebook(現在叫jupyter)一直是數據分析的利器。

我長期以來都用它玩單機版的數據分析,BI雖然在線上環境,但偏報表。最近在查詢資料的時候,發現它能完美地和Docker兼容。Docker我只了解部分概念,不過並不妨礙閱讀文章。

於是拜託我們的運維大哥將IPython搭建在伺服器上。

網上扒拉幾篇教程給他就搞定了,不難。

通過伺服器的IP訪問,和本地環境沒什麼交互差異。

拿Python For DA的數據舉例。

試一下作圖,也ok。

線上分析環境和本地比有這樣幾個好處。

可以連接生產資料庫

直接在伺服器讀寫數據,直接分析,避免下載CSV的環節。如果設置好的話,數據分析的效率 能提升一截。對我們部門,也希望從SQL+Excel的分析習慣轉換到SQL+Python的分析習慣。當然用不用Excel還是看實際的效率。

可以進行協同數據分析

協同有多好就不說了。

數據分析師之間可以互現查看對方的分析思路和結果,分析過程都是直接可見的。

也可以在對方的分析基礎上直接修改。比如A完成了數據分析前的清洗過程,B就直接訪問文件,繼續接下來的探索分析。更可以用Markdown批註。

每一次Python的數據分析過程直接保存在伺服器上,多酷~數據分析的團隊性也加強。

可擴展性

因為Docker,現在只要在伺服器端pip package就行,甚至本地電腦不用安裝Python和大量的包,直接登錄伺服器上手(個人建議本地還是要有的)。

哪怕做數據挖掘,以IPython的特性做非工程化的探索研究應該也是夠的。


推薦閱讀:

入門機器學習到底需要多少數學知識
R語言實戰之簡單數據處理
遠的數據分析之路
用SQL實現 excel常用操作(附一些面試原題)
如何寫出一篇讓人滿意的數據分析報告?

TAG:数据分析 | IPython |