numpy+pandas除了效率對比excel還有什麼功能上的優勢嗎?


謝邀,我不是很專,從我用ecxcel和python的簡單經歷來看,我覺得:

1、如果數據量不大,而且數據以數值為主,處理也是簡單的統計,那麼兩者都挺好用,而且我覺得excel更好,純粹就是所見即所得。而且即使是簡單的創造新函數,或者自動化執行,用vba也能滿足而且也足夠便捷,語法的劣勢沒什麼不舒服的體現。我團隊及,財務數據方面的日常整理,統計和分析,以及核算底稿的生成,全都是vba,老少咸宜,完全沒必要用別的工具。

2、如果需要靈活在各種顯示範式中切換,切片,分組,聚合,索引,排序,並且結合各種統計函數的使用等,還是python比較合適。例如groupby的大部分基礎功能通過excel透視分組篩選等也能實現,但是如果結合各種函數的使用,就遠比excel靈活了,excel菜單或者vba的透視表函數,都遠沒有這個靈活度。我自己在整理數據,從不斷分組,切片,排序和統計中尋找分析思路時,就喜歡用python不斷進行各種嘗試,觀察數據結果,我想如果我用excel的話,會繁雜和混亂得多。所以我需要用量比較大的業務數據做分析時,我一般不用excel。

3、如果需要用複雜些的統計計量方法,excel遠不能滿足。有時候非要用vba去編寫也可以,但效率會低10 倍不止,你隨便找本統計書找個計量模型,按照它的公式寫寫代碼就體會到了。不過這個在python上不僅這兩個模塊了,還有statsmodels等。我有時候對這些模塊的函數不太熟悉,也懶得去看文檔,有時候為了計算個指標,我也會用matlab,eviews等工具。只是這類計算器沒有python那麼強大的基礎數據規整能力,而更適合用作數值計算。

4、如果數據不僅僅是數值型的,還有日期型,文本型(特別是多項信息長文本組成的值),用excel處理也很麻煩。把文本轉化為虛擬變數準備回歸,把多種多樣的同義異形文本統一形式,把日期整理整齊統一口徑準備做時間序列模型分析等等,用excel夠累的,還不只要要插入幾列做過程處理才夠用。

5、涉及到web的數據分析,別養成用vba摘取網路數據的壞習慣,代碼寫到手抽筋。這個不展開了,我用得少,但是試過用vba寫,的確讓我沒耐心,體檢印象不好。

6、如果分析還涉及圖形處理,跟其他程序的各種介面等,還是用邊界更寬的python吧,畢竟excel只是個強大的孤島,走出去擁抱其他不太容易。

多請點其他高手吧,我是半路出家的非科班人士。


推薦閱讀:

互聯網數據崗位定位與分工
轉行數據分析,你準備好了嗎?
泰坦尼克號生存率預測——R語言
我為什麼要學習數據分析

TAG:Python | 數據分析 | 數據分析師 | numpy |