Docker+IPython,搭建線上數據分析環境
01-26
今天簡單說下數據分析的工具技巧。
IPython notebook(現在叫jupyter)一直是數據分析的利器。我長期以來都用它玩單機版的數據分析,BI雖然在線上環境,但偏報表。最近在查詢資料的時候,發現它能完美地和Docker兼容。Docker我只了解部分概念,不過並不妨礙閱讀文章。
於是拜託我們的運維大哥將IPython搭建在伺服器上。
網上扒拉幾篇教程給他就搞定了,不難。
通過伺服器的IP訪問,和本地環境沒什麼交互差異。
拿Python For DA的數據舉例。試一下作圖,也ok。
直接在伺服器讀寫數據,直接分析,避免下載CSV的環節。如果設置好的話,數據分析的效率 能提升一截。對我們部門,也希望從SQL+Excel的分析習慣轉換到SQL+Python的分析習慣。當然用不用Excel還是看實際的效率。
可以進行協同數據分析
協同有多好就不說了。
數據分析師之間可以互現查看對方的分析思路和結果,分析過程都是直接可見的。
也可以在對方的分析基礎上直接修改。比如A完成了數據分析前的清洗過程,B就直接訪問文件,繼續接下來的探索分析。更可以用Markdown批註。
每一次Python的數據分析過程直接保存在伺服器上,多酷~數據分析的團隊性也加強。
可擴展性
因為Docker,現在只要在伺服器端pip package就行,甚至本地電腦不用安裝Python和大量的包,直接登錄伺服器上手(個人建議本地還是要有的)。
哪怕做數據挖掘,以IPython的特性做非工程化的探索研究應該也是夠的。
推薦閱讀:
※入門機器學習到底需要多少數學知識
※R語言實戰之簡單數據處理
※遠的數據分析之路
※用SQL實現 excel常用操作(附一些面試原題)
※如何寫出一篇讓人滿意的數據分析報告?