數據挖掘SPSS,Python,《機器學習實戰》先學什麼好?

剛剛開始接觸數據挖掘,現在大概已經有了一個清晰的目標,SPSS處理圖像和一般分析問題,Python處理高級問題(這麼說大神別笑話),現在python大家都推薦的書是《機器學習實戰》,但是我現在沒有python基礎。SPSS有一點基礎,想請教大家是應該先學習好SPSS對各種分析方法熟悉以後,再學習python語言,最後再學習《機器學習實戰》,還是邊學《機器學習實戰》邊學python?

麻煩前輩們指教下,說法幼稚還請見諒。


永遠不要等待先學會A,然後再學習B

我採用的方式:python基礎教程+機器學習實戰+統計學習方法同時看,哪裡不懂補哪裡。

機器學習實戰:主要是學習它的代碼實現

統計學習方法:主要看演算法的思想與數學原理

python基礎教程:哪裡不懂看哪裡,現學現用


SPSS也僅僅是把成熟的方法放到軟體裡面,它和Weka,RapidMiner本質上沒什麼區別。

個人不太熟悉圖像,但是隱約覺得SPSS是偏向統計的,和圖像處理沒啥關係吧。這個僅僅是自己的一點疑惑而已。

好,正經回答你的問題。SPSS其實蠻好學的,沒必要和其他擺到一個層面上,我猜你是要學習SPSS模塊中的那些統計方法吧。SPSS中的方法大多是統計方法,和《機器學習實戰》中的方法不一樣。不過你先學習統計方法,再看《機器學習實戰》也不錯。

至於Python基礎,在看《機器學習實戰》之前的確看一下《Python學習手冊》這類的入門書比較好。因為Python語法比較簡單,所以說也不用有什麼負擔,看幾天就會了,然後再順著《機器學習實戰》一邊看一邊code就好了。

順序如下:

  1. SPSS中的統計方法
  2. Python基礎
  3. 《機器學習實戰》

P.S. SPSS中的統計方法都很經典,會用的話,其實不用看很長時間,但是如果想自習鑽研,就是統計學了,裡面的知識也很豐富。


建議先從Python的基礎開始學習。

比起SPSS,Python擁有更加健壯的ecosystem,這個我在之前的帖子裡面有回答過:

python在數據分析日常工作中地位如何,與R語言、SAS、SPSS比較?


python無論是在數據分析,統計回歸,圖形繪製上面都有良好的第三方包;在速度,可擴展性,可操作性上都是上佳之選。建議從學習python語法開始入手,等到能夠用python解決一些遇到的小問題後再去學習《機器學習實戰》

===============================

最近一個月,我也剛把python的統計,計量和繪圖包熟悉了一下,由於本人是學計量的,所以偏向計量。我的博客有我寫的一些筆記,可以供你參考。長鼻子


為何要學習機器學習實戰?機器學習背後的數學你不懂的話恐怕沒什麼用


做圖像處理和數學問題推薦matlab


我個人目前這也在考慮這個問題,比較同意

肖智博的觀點,先學好理論,語言只是工具,spss中用最簡單的方法闡述了統計學的理論,然後選擇一門語言,其實r和python都可以,不過機器學習實戰這本書用的是python,所以python可能更好些,歡迎交流


最近一直在搞說說自己的心得吧。我建議python+機器學習實戰。感覺看看Andrew Ng的課先入個門畢竟這個課真的好簡單容易入門 coursera 上面的 當然cs229就很學術而且比較詳細 這個適合和coursera一起看。我感覺機器學習實戰+python+機器學習 周志華的或者+PRML(當然這本我認為最好、如果英文吃力的話可以看馬春鵬翻譯過來的).因為我大學本科數學基礎有一點所以那些什麼數學的什麼的可以看看你哪裡不會看哪裡。(谷歌將常伴你左右)。最後祝你早日學成。

推薦python原因是真的是太好用了 什麼函數直接調的感覺很爽。而且python入個門很快的在coursera找個視頻不到一周就可以入門了 看in action的代碼沒什麼問題 還有不要只敲代碼 要理解 理解的基礎上再敲一遍


就學python吧,很好用的

推薦三本書:

利用python進行數據分析(Wes McKinney)

統計學習方法(李航)

Pattern recognition and machine learning(Bishop)

難度依次遞增,學不會的可以先當參考用,網上很容易能找到PDF版的,淘寶也有賣


Matlab和Python都是比較容易入門的工具,但兩種工具都各有優劣。

樓主對方法的學習甚至可以試著通過閱讀Matlab的*.m文件了解更多。例如常用的回歸、聚類、神經網路類方法。

如果想在演算法編程更有突破,建議先試著用Pythonxy。


python在大數據處理方面確實挺贊的 可以先入Python 而且Python幾乎沒有門檻 極易入門


如果打算從事技術類數據挖掘崗位的話,應該馬上開始一個有一定難度的項目


推薦閱讀:

LDA訓練出主題之後,怎麼再通過主題計算出一篇文檔對於所有主題的分布呢?
IBM spss modeler 是什麼?
如何從數據挖掘入門到數據挖掘高手?
數據降維和特徵選取有什麼區別?
如何通俗易懂地解釋支持向量回歸(support vector regression)?

TAG:Python | 數據挖掘 | 數據分析 | 機器學習 | 機器學習實戰書籍 |