需要做聚類、分類、時間序列分析,用什麼工具比較好?

需要能實現聚類、分類演算法,還有時間序列模型,SVM演算法等,應該用哪個工具比較好呢?

首先需要比較直觀的得出繪圖效果,後續希望能和程序對接。


工具的話,你需要的應該是 Beaker Notebook。

擁有 IPython 的一切功能(其實是 Jupiter),但支持多種語言,還可以在不同語言之間傳遞變數。

示例圖中 Beaker.x 用 Python 初始化,用 Javascript 訪問,又用 R 訪問,又用 Groovy 操作。

Beaker 支持各種語言。包括程序設計語言和文檔撰寫語言

在所有程序設計語言之間,變數都是可傳遞的。

同時也支持各種語言風格的可視化(其實就是語言特性,能傳遞變數了,別的什麼都好說)

多人協作和跨平台自然也是水到渠成。畢竟是基於瀏覽器的。

然後對於你具體工作,可以選擇各個語言中合適的包來處理。聚類分類的話,python 的 sklearn 主要是演算法,數據結構和矩陣分析需要用 numpy 和 scipy,繪圖一般是 matplotlib。當然有了 Beaker,用 javascript 是更好的展示工具。也可以用 LaTeX 寫數學比較重,或者學術向的文檔。時序分析的話,python 的 pandas 和 R 的一大堆包都可以用。sklearn 中有 SVM 非常靈活的實現,線性的和基於核的各種實現都有。我沒有試過用 Beaker 調用 Spark,但至少它支持 Scala。與其他程序對接的話,Julia 其實可以調用各種語言(C、Python、Matlab、Java、R),Python 也可以調用 C。但有了 Beaker 本身就可以用各種語言的包,應該不太需要別的了。或者需要 RPC 或者 開個埠做API?開個 web 伺服器當雲主機,接收數據,分析處理給結果,其實也是可以的。這裡有一個 SciPy 2015 上的 Demo 視頻,可以體會一下其靈活: http://pan.baidu.com/s/1C5cCY。


R,Python

Matlab,Mathematica,

SAS,SPSS


@親愛的龍哥 說得對!補充一句,你需要的就是 IPython(Jupyter and the future of IPython),配合 pylab/sklearn/scipy/pandas 使用,無比酸爽,誰用誰知道。另外 IPython 還支持多語言對接,R、Cython,以及 Bash和Perl 腳本運行。


推薦R和python。

python+pandas+sklearn等,畫圖需要matplotlib

R+xts(zoo)+e1071都能滿足要求。

聽說對接的話python更合適? 我沒有做過,還指望有高人來回答。


你說的這些,我都在Matlab上做過,還沒發現有什麼問題。但不知道你要和什麼程序對接,以及你的數據量多大


用R是最方便的了,其次就是SPSS了,還有些不常用的,Weka、Tanagra等很多。

試用過大數據魔鏡,裡面的預測、關聯分析、聚類,用過,效果還不錯。


SAS還是算了,整個數據的預處理就很麻煩,最推薦的還是Python或者R,其中更推薦Python,和別的程序對接很方便。


這個得根據數據量和要求的精度來吧,一般企業調研和學校作業的話SPSS就夠用了


我也推薦SPSS,簡單好用。不過時間序列分析我一般用EVIEWS。

哦不過要和程序對接的話還是用R或者MATLAB吧。


SAS


準備使用python學習


導師說,SAS足矣


如果做prototype的話,首選matlab吧,因為你所需要實現的功能(聚類,時序分析,SVMs)在matlab里都有內建的函數:kmeans是用最簡單的kmeans演算法聚類,hmm比較適合時序分析,svmtrain,svmpredict就是SVMs了。如果lz想用libsvm,也有matlab版本的,下載安裝都不難,而且使用matlab可以節省大量的編程時間,讓題主花更多的時間在演算法上,而不是debug


如果是作為一個小小白追求簡單粗暴 其實用spss就能搞定,完全無需任何基礎,對著教程點點點幾個選項就搞定。哈!


推薦閱讀:

本科生沒讀研怎麼讓自己機器學習水平更近一步?
數字圖像處理/計算機視覺的進階問題?
L1範數的最優化過程是怎麼樣的?梯度下降遇到不可導點怎麼辦?
如何才能看得懂變分貝葉斯方法(Variational Bayesian)?
線性可分的數據集下,感知機模型是否是凸優化問題?

TAG:數據挖掘 | 機器學習 | 計量經濟學 | 聚類演算法 |