SAS, SPSS, AMOS, Stata之間的比較?
以前在人大論壇看到的, 有點年代了, 抱歉找不到出處了. 由於是老帖, 部分信息也不對了(比如, SPSS已經是IBM的了). 不過大部分還比較準確吧~
SAS、S-PLUS、SPSS詳細比較
-------------------------------
呼, 在知乎貼表格好辛苦, 原諒我新來的, 只會轉成圖片貼過來
用過sas和R,以及stata和Spss怒答。
先說答案:感覺自己淺嘗輒止就用spss吧;感覺自己想做面板,計量,而非金融量化,就用stata吧;想處理海量數據,跑模型,以及sql,sas必須的;需要特別前沿的模型,package,只能用R了。但是感覺一般人不會用到那麼「前沿」的package。sas把數據存在硬碟里,因此可以處理海量數據,sas的sql很不錯,package其實也蠻多,更新稍微慢一點。
R數據在內存里,所以加大電腦內存,加內存條很有必要啊,R package靈活更新快什麼的優點就不說了。重要的一點:R error不提示具體error在哪裡,讓我感覺很不用戶友好@_@spss貌似是菜單操作吧.....比較基礎吧,本科畢業論文用過,很久了,印象中是比較基礎的統計軟體。印象中stata處理面板數據是很擅長的,固定效應,隨機效應等,但是stata的編程確定是可以忍受的嘛.......但是稍微複雜的模型stata就處理不了,比如bekk-garch模型,stata13 就無法處理非對角線元素。個人一直在用過sas,感覺神好用哇!除了logistic-lasso 在sas中實現不理想以外,沒發現做哪個模型的時候sas用不了~張文彤SPSS初中級教程鏈接:http://pan.baidu.com/s/1skhnOmT... 密碼 :x4qr張文彤SPSS高級教程鏈接:http://pan.baidu.com/s/1o7t6k4M... 密碼 :p93m這是張文彤老師的初中高級視頻,對於想學習的人非常有用,喜歡的人記得給我點贊,同時歡迎大家能夠分享自己的學習資料,充實大家,謝謝
個人的了解,
SPSS在國內使用的最多,領域也多。這個入手簡單,滑鼠點點即可完全大部分工作。
SAS是很強大的,據說美國藥學會對新葯的臨床效果評價只認SAS的統計運算結果,可見其質量。而且它是要自己寫代碼的(雖然也有圖形化操作界面),對使用者自身的統計水平要求較高。還有一個R語言,和SAS一樣都是對過程反應很清晰的,聽某統計專業的老師說這兩個最能反應思路,說服力強。AMOS不很了解。Stata最為輕量,感覺跟R挺像,沒怎麼用過,也是敲命令行,但跟Linux終端相比,太難用了……作為數量經濟專業的回答一下stata基本上就是我們做統計分析時用的軟體,確實時R語言的一種,可以自己編程(mata),也可以用一些命令,但高級命令都是編程或者下載別人編好的插件的。主要應用領域是計量,微觀計量和面板數據。eviews就是對時間序列用的,因為有很多濾波器,所以我們時間序列用這個當然時間序列也可以用matlab,工科用的多。做模擬實驗用。SAS,SPASS樓上都回答了,貴要麼貴要麼太基礎。我沒用過。將來準備用R,等畢業了吧。
以下個人觀點,可能有些錯誤:
SPSS當然是很不錯的,但是價格也很高。大部分人講的SPSS應該是在IBM 將spss改為 business analytics的工具之前的情況吧,現在應該不同了吧。
SAS價格也不便宜,如果你的資料來源是Database,大概還是SAS比較能和Database銜接。如果你是租資料公司的資料庫,或是標準的股票交易的資料庫這種,當然就用SAS最好。
如果你的資料是自己整理出來的,例如將網路原始資料下載下來做整理,那應該是Stata比較好。
因為你整理資料的時候,最重要的是能記錄編輯的每個步驟,也就是說:雖然你手動整理資料,但是,應記錄成一個程式檔,其他人執行這個檔以後,會產生相同的結果,這是最重要的。否則跟作弊沒甚麼兩樣。
其實用Stata整理好資料以後,你可以用matlab來跑矩陣,搞不好才是最快的。
因為很多的convex optimization的運算,也就是找最小值的運算(統計不就是再找最小值嗎?),其實你要考慮矩陣的特性,有很多數學定理對特殊矩陣的運算有特殊解法,例如稀疏矩陣等等。這些定理的運用大部分都只有在matlab上實現,所以跑矩陣建議還是用matlab。
統計模型不就是矩陣的運算嗎?何必要用甚麼統計軟體?很多統計軟體都是不能做擾動分析的,例如你可以告訴我,假設資料中的一個變數紀錄時有1%上下的錯誤,對估計值有多少影響?
這類問題很多統計軟體都做不出來,因為統計公式的估計值,很多只是一個矩陣的多項式運算的公式,而不是用數值方法推算的結果。所以沒法做這類的擾動分析。
如果要做business analytics,你可以將資料傳至主機伺服器,用網頁的方式進行視覺化分析,也不輸給SPSS (SAS也有analytics視覺化分析也很不錯)。當然將資料視覺化圖表是指以瀏覽器來檢視,必須要開發網站,需要花個5~10萬美金請工程師開發。但應該比用SPSS划算。畢竟開發出來可以讓所有人使用,不需按人頭計費。
SAS我覺得還是金融機構的分析才會用吧!因為金融資料比較有結構性,也比較沒有錯誤或紀錄缺失。
如果是microeconometrics的資料,例如公司的股東股權資料,家戶的所得與消費資料,進出口貿易資料,保險的保單資料,選舉的投票資料,政府官員的發言資料,報紙新聞稿上的內容,軍事武器設備資料,網頁瀏覽次數連結次數的資料,網路社群活動的資料,通話紀錄的資料。這類的資料如果先整理存成資料庫,然後再sql取出來分析,就是在做重複的工作了。
因為你要存成資料庫,你的資料是要很結構化的,如果是非結構化的,當你存成資料庫時,可能已經把很多不乾淨的資料剃除了。但存成資料庫的人和分析的人可能是不同人,那就無法因應分析的條件與假設來分類與剔除資料,就會做重工。
而且非結構化的資料有時資料量是很大的,硬要把100T的資料存成單一檔案(因為整個資料庫就是一個檔案)是有問題的。一般的檔案系統(如EXT4)只能存16T,所以你的資料庫如果大於16T,等於你就要花大錢在硬體上了。
所以重點應該是要做一個分類資料、剔除資料、推算缺失資料的的代入值的模型。而不是要討論乾淨資料怎麼分析。
統計的價值是建立一個將原始資料變成乾淨資料的模型。而不是在分析乾淨資料。說真的誰會在乎甚麼變數和甚麼變數之間有沒有顯著的因果關係?根本不重要。那只有學術價值。
事實上有了乾淨資料後,用甚麼模型做分析不重要,因為你可以提出報告,如果A模型就有A預測,如果B模型就有B預測。
事實上有乾淨資料後,其實你用視覺化的方法呈現資料,基本上就可做決策判斷了。
當然這是microeconometrics的觀點。從這種觀點來看,Stata可能才是最合適的工具。SPSS的操作方式主要是窗口式的,點點各種按鈕描述一下均值、方差、趨勢圖,做一些簡單的線性回歸或者差異性比較啥的。適合做橫截面數據,也就是一個時間點或者一次調查中樣本的各種變數情況,能做簡單的事件序列分析。個人感覺用來做問卷調查的數據分析最實用。STATA的操作方式主要是程序語言式的,就是寫一些命令,不過沒有想像起來那麼難,掌握十幾個常用命令就差不多了。個人感覺STATA做面板數據很簡便,只要會tsset,xtreg,hausman,lag幾個常用的語句就能搞出一個看起來很高級的結果。Eviews沒用過,據說比較適合時間序列數據。
作為客戶端版的話,基本的的統計功能SAS,SPSS,JMP,STATA,R等等軟體都是大同小異,即便是R也有被包裝過後出的GUI版本以降低上手難度。
美國這邊工業界里SAS還是用的最多,無外乎其完善的功能以及強大的客戶支持。我們公司就有不少常駐的SAS技術人員,負責對任何伺服器運行問題提供第一時間響應。另外,SAS跟很多資料庫公司(比如我們用的Teradata)能實現很好的整合,這樣我們通過SAS Enterprise Guide或者Enterprise Miner,可以利用分散式計算,合理分配Teradata cluster跟SAS cluster的工作量來大大加速運算速度,提高效率。這一點是開源軟體很難做到的。
新興的高科技公司對於數據分析軟體,普遍更青睞於低成本,高靈活度的開源軟體(R,Python等等)。這也是為什麼大部分數據科學家職位都要求計算機/編程背景更甚於統計的一個原因。一般做論文的話,SPSS 做簡單的描述性統計分析、聚類分析等,一些偏理性角度,都是顯變數之間的關係AMOS,可以解釋潛變數和顯變數之間的關係AMOS比較好用,因為不用編程,都是圖像編輯,並且和SPSS互聯
STATA 和SAS 貌似需要語言,編程什麼的,STATA 做表格比較好,我記得,這倆軟體沒仔細研究過。
具體的我也不太清楚,我現在剛sas入門,sas老師說sas是目前最強大的金融處理軟體,目前還不普及,所以掌握的人比較少。其他的沒有涉獵,不過我認為這類軟體只要精通一門就可以了!
SAS推出了JMP,專門用來打擊SPSS。SPSS按模塊來賣,要湊齊基本統計,預測和數據挖掘模塊,價錢也跟SAS差不多了,被IBM併購後想學SAS模式,有點畫虎不成反類犬的節奏了;STATA.......我只能呵呵。 JMP 包含了探索性數據分析和預測模塊,在SAS的基礎上大幅度強化了圖形與交互分析,並且繼承了SAS 數據挖掘的部分常用模型如決策樹神經網路隨機森林之類,儼然在有些領域已經有些取代SAS的意味,不知道是SAS鼓勵內部創新的偶然結果,還是SAS刻意推JMP使然。比JMP 和SPSS更便宜而功能弱一點的,還有minitab。貌似minitab主要在質量界,其他領域的數據分析少有涉及。
我是心理學的學生,用的最多的還是spss,我們最多的就是研究變數之間的差異差不多就是t檢驗方差分析回歸,不過現在心理學的中介效應調節效應挺流行的,很多用amos來做結構方程,好像現在最熱的應該是mplus了吧。。
沒有最強大,只有最合適
準確而言,這四個是無法比較的。像Amos是純處理SEM的。剩下的三個的話:
處理能力: SAS&>STATA&>SPSS
上手難度:SAS&>STATA&>SPSS易得性:三個都差不多,都有破解版,實在難找自行某寶。印象中都是比較新的,順便說AMOS也有最新的破解版,簡直造福大眾。
就我所處的清華公管而言的話(和學科特點有關,像心理學AMOS極其常用),個人認為一些常用數據分析軟體使用頻率如下:
SPSS=Eviews&>STATA=Nvivo&>SAS=AMOS
此外,像UCINET,Lingo,Matlab,Citespace做不同類型研究的也都有人在用。SAS,SPSS都有人說了,STATA不會。。。AMOS前一段時間一直在用,建結構方程模型,做中介效應分析非常方便,針對性極強。這個軟體優點是非常非常容易上手,個人感覺缺點是容錯率有點低(畢竟我是一個不那麼細心的人)。與AMOS類似的有Mplus,lisrel等等~
SPSS主要是菜單操作,對中文的兼容性也很好,結果也比較容易看懂,但是漢化的時候翻譯的太差,個人推薦使用英語版的,否則一些結果根本看不懂。SPSS也是一個收費軟體。SAS強大的統計軟體,使用的人群範圍很廣泛,強大的proc部使其能處理絕大多數的統計分析人物。但是,SAS更新較慢,很多功能的實現要去編寫宏程序,較新的統計方法可能不能實現。收費軟體,價格較高,不適合個人使用。R是開源免費的統計軟體,編寫的語言比較像C語言。有著大量免費又強大的包,可以從其官網下載。有著強大的可視化繪圖功能。
最近在學數理統計,答案與問題可能關係不大。教我們課程的老師說到,做統計方面的數據處理r和MATLAB在國外寫論文中使用的認可度比SPSS更高。r軟體是免費的,正在學習。
用過SPSS 貌似是初級,容易上手一些,大體感覺此類的根據行業二次開發還是蠻有錢圖的,輕拍
推薦閱讀:
※回歸分析中,x對y回歸和y對x回歸,也就是交換順序之後,為什麼係數不是倒數的關係?
※如何評價多倫多大學新建的向量學院 (Vector Institute)?對人工智慧領域會有何影響?
※真正意義的隨機數生成器存在嗎?
※最小二乘、極大似然、梯度下降有何區別?
※人工智慧(AI)是如何處理數據的?