SAS入門指南

吵著放棄SAS已經兩年了,結果每天打開電腦outlook,lync之後,打開的軟體仍然是SAS(排在統計大殺器Excel前面)。所以還是想用SAS做專欄技術類文章的頭一篇。

文章基本基於我在知乎的SAS第一次回答:考慮從事 SAS 程序員工作,有哪些需要注意的點? - 暢斌的回答 - 知乎 。稍微加了一些我最新的體會。

首先說,SAS並不是一個user friendly的軟體。但是其最主要優勢體現在處理大量甚至海量的數據的時候。Excel實現簡單且結果立刻可見,是做數據和統計的永恆神器,關於Excel做分析尤其是做可視化的結果的各種方法,在知乎上有許多經典的帖子,不妨搜搜看看。但是當日常處理數據最小的幾十萬行,幾十上百列,這樣的文件是Excel沒有辦法處理的。

SAS有兩種基礎的step:1. data step偏重於數據的處理和生成(manipulation);2.proc step則提供了SAS各種功能強大的統計分析工具。SAS不同版本的演進主要集中在interface和各種工具的開發。現在的SAS既可以滿足programmer在簡單的環境中純粹用scripts實現從底層到reporting的各種功能。也可以在開發工具中用簡單地拖拽和設計來實現一個複雜的流程。但是,所有過程的本質還是兩種最基礎的step,所以:無論最後是在什麼樣的SAS環境中,對於基本的scripts的理解仍然非常重要。

關於SAS對於統計知識的要求不同的人的看法是不一樣的,我想主要原因是大多數的SAS重度使用者還是統計學的背景為主(包括生物統計這一主力軍),無形中增大了隱形的門檻。但是很多人用SAS的工作其實對統計的要求並不是特別的深,可以做到理解SAS相關proc的原理即可。而且許多實際的工作中最常用的統計方法其實很簡單。如果閱讀和理解SAS相關的procedures沒有問題,統計知識就不會成為做學好SAS的困難。如果參加過SAS官方的各級培訓,會發現即使到了中高級的statistics的SAS Training,需要的統計知識仍然沒有離開最最基礎的一些統計概念。當然,毫無統計背景的人無論如何也應該理解基本的統計知識, 包括各類假設檢驗,以及能夠讀懂一個標準的procedure (reg,logistic,univariable等)的結果的大部分內容。

我想SAS最大的一個缺點就是價格,高昂的價格基本上決定了大多數創業公司或者中小企業沒有辦法承擔每年不菲的開銷。SAS的主要客戶還是大型的公司,但是其實行業上面倒是並不局限於銀行或者healthcare,因為只要是需要處理分析大量數據的工作,SAS都是選擇。具體說,我在參加SAS培訓時,遇到的同學背景很廣泛,商業銀行,投資銀行,餐飲行業,政府部門,大學等等。而我自己的經歷也是因為熟練掌握了SAS,才從energy demand forecasting跳到了credit risk modelling這樣一個全新的領域。

關於SAS的certificate和官方的training,我的體會是相關的note和考核的內容對於熟練掌握SAS還是很不錯的材料。如果在時間精力和財力允許的情況下,通過培訓或者認證可以讓自己在短時間裡有一定的收穫。至於在找工作裡面,能夠熟練掌握SAS的人的確具有非常大的優勢:但是實際的工作經驗的價值遠遠高於certificate。另外,如果不是去商業銀行或者healthcare大型企業這些非常非常傳統的SAS客戶,Python,SQL,Hive,R的技能都比SAS要搶手了。尤其是現在熱門的fintech公司,幾乎沒有哪個還在用SAS作為主要工具了。這些變化顯然值得注意。大家關注的最多的還是用工具解決問題的能力,而不僅僅是一個工具熟練度的問題。

PS:工作這部分,我的經驗完全局限在歐美,國內的情況我一無所知,歡迎大家告知。
推薦閱讀:

SAS 是一個什麼樣的公司,為什麼常年位於最佳僱主前幾名?
sas界面為什麼那麼丑?
SAS入門書籍有哪些值得推薦?
有一定SAS基礎後如何深入學習?
毫無數據分析工作經驗,如何闖入該行業?以及擇業方向?假設學過SAS或R。

TAG:SAS | 数据分析 | 数据统计 |