數據挖掘新手該如何開始這一領域?
有經濟學第二學位,學校也是經濟類院校。方向一:偏應用,直接去研究各類分析軟體並用其分析金融類數據,畢業之後就更快適應工作。缺點是:走不長遠,容易被替代。
方向二:偏學術。就研究各類挖掘演算法,並自己動手實現,難度較大,只有兩年(實際大概只有一年)的時間,恐怕難以完成。
怒答。
看到這個邀請我真的不知所措。
首先,請搜索一下吧, 我之前答過 機器學習該怎麼入門? 和 如何系統地學習數據挖掘?這個想必都會對你有幫助的。其次,數據挖掘太廣闊,問題就一句話,你的背景和你的目的都不說,怎麼答?寫本書給你?之前答過 Web 數據挖掘如何入門?好歹人家給了個領域限制。然後,既然上過學,那麼學一個東西就是看書唄,有沒有機器學習方面集大成的教材推薦?和 數據分析、挖掘的好書求推薦? 都會幫到你。
要不然,在話題動態 - 數據挖掘這個話題下面按照熱門排序你也能看到大家曾經問過什麼,答過什麼啊。
-----------提問者增加了問題描述之後的補充分割線----------------
作者加入了補充內容,這個問題就變成了完全不同的一個問題了。據我分析看,第一個方向是直接工作。第二個方向是考研。如果我沒猜錯的話。
由於我沒有經濟學方面數據挖掘的經驗,只能憑藉著之前參加過的一些會議和網上看到的消息綜合給出一些意見了。
我覺得經濟學中的數據挖掘是需要非常準確的模型同時模型也不太容易變化。就像你說的,現在有很多現成的軟體,大公司直接應用就好了,比如SAS。因為這些成名的軟體可以提供一個穩定的,魯棒的結果,不會隨著時間的推移而產生劇烈變化的結果。這也就說明這些模型都比較簡單,比如logistic regression。因為數據挖掘的結果對於決策始終是一個參考的位置,任何演算法也計算不出來內部消息和人的主觀因素對於結果的影響,畢竟,演算法都是要依靠訓練數據的。畢業之後直接工作的好處是可以了解很多的背景信息和領域知識。說實話,如果能根據領域知識對演算法進行有針對性的改進,這個才會得到最好的效果。如果真的就是那軟體套用的話,那可真的是走不長遠。
對於第二個方向,好處是你可以在學校裡面心無旁騖的把整個機器學習和數據挖掘領域中的演算法都基本上過一遍,然後挑其中一個深入研究做出一篇論文出來。就像上面說的,金融領域的模型要求有魯棒性和準確性,因為涉及錢,後果很嚴重。一些最新的演算法也不一定適用於所有的數據。能夠掌握領域知識是好的,我始終相信厚積薄發的道理。但是究竟今後能用上多少,我不好說,這個你需要邀請知乎上做金融領域的人來回答了。具體時間的問題,這個就看個人怎麼利用時間了,學校裡面的研究生的課程僅僅是混學分用的,對今後的發展幫助很小,如果能充分利用這兩年時間,還是能學到很多東西的,這個看你自己了。
個人愚見,希望能對你有些幫助。剛回答過這個問題,如有興趣建議抽出時間看一看。
- 如何系統地學習數據挖掘?
關於金融數據挖掘的問題,個人建議:
- 學好金融、證券、經濟學課程打好基礎。
- 熟練操作主流金融分析軟體,如EViews,MATLAB等。相對Business Analytics and Business Intelligence Software(SAS)、SPSS 來說更推薦The R Project for Statistical Computing即R語言進行金融建模和數學建模。當然前面兩者在國內更加流行一些。
- 各類機器學習演算法只需要了解,以後在工作中根據需要學習,當然可以自己動手做一些小的實驗模型。
- 經典圖書推薦:《經濟學原理-宏觀經濟學和微觀經濟學分冊》(曼昆)、《金融時間序列分析》等
先要知道數據有哪些,什麼結構,也就是把所知的東西統統擺在桌子上才好研究到底怎麼開展分析挖掘。舉個例子,如果問你,」請分析訪問你網站的用戶家裡的平均溫度是多少「,你怎麼辦?從表面呈現的數據來說,用戶訪問你網站,留下的有cookies、web log、user-agent、system version、IP、等等,但是沒有一個標準的、且大部分用戶都擁有的I/O設備(對用戶家裡的溫度檢測的設備,採樣到數據並在用戶訪問你網站時提交這個數據),所以,甭想能直接拿到數據分析到底用戶家裡的平均溫度是多少。或許,你第一反應就是回絕提出這個分析請求的任務。
然後你已經知道能搞到什麼數據了,再是了解這些數據的意義。還是剛才的例子,雖然我們不知道氣溫,但我們知道IP,IP可以通過LBS、IP-geo等的方式變成地理信息,你會約莫知道,訪問你網站的用戶,約莫有40%的人在廣東,30%的人在上海等等,然後加上時間的參數,查閱當時的天氣歷史數據,你就能算出40%的人大概平均溫度30度,30%的人平均溫度25度,似乎,你就能算出訪問你網站的用戶家裡的平均溫度了。
跟著你可能發現這裡出問題了,訪問你網站的用戶家裡的平均溫度有個屁意義啊,平均下來個28度,幹嘛?好吧,其實一開始就是一個傻問題。其實,你是一個賣床上用品的電商網站,市場人員突然想起最近要促銷一堆短袖T恤和長袖T恤,路過運營中心時,剛好想到用溫度來問問題,試圖單純用平均溫度來決定促銷長袖好還是短袖好。你接到這個任務,分析至此應該把這提出問題的人抓來討論一下」平均溫度是沒意義的挖掘結果,但40%的人在廣東,30%的人在上海這個數據卻又用了「。
最後,叫來技術和產品人員,定下了一個規則:如果發現用戶是廣州來的,頁面首推的是短袖T恤,如果用戶是上海來的,則推長袖T恤。3天後這個效果實現了。
哈哈,數據挖掘的你似乎完美的完成了任務,網站的銷售量節節攀升。。。
其實很多時候並不是如設想般,實際上當你改了這個規則後,反而發現廣州和上海都在買短袖而沒人買長袖,之後你再挖掘才發現,原來廣州和上海都不喜歡長袖的設計,因為上面印了紅歌的style,結果很多重慶的人在買,雖然哪兒氣溫快40度了。
明白沒?就是反反覆復的折騰:1、搞清楚數據、數據結構是什麼2、手上的這些數據和結構能直接推論什麼結果,和背後能演算什麼結論3、一開始的問題可能是偽命題,在挖掘的過程中搞清楚真命題,修正挖掘方向4、挖掘的結果實用化,再後續發現」沒道理「的現象,再修正所謂的數據挖掘,就是利用各種技術與統計方法,將大量的歷史數據進行分析、歸納與整合等工作,找出有意義的,有價值的數據,加以運用。
數據挖掘大部分的核心功能的實現,都以計量和統計分析方法作為支撐。主要包括,聚類、估計、預測、關聯分組以及分類。
數據挖掘需要學習一下,Python、Hadoop、Spark、還需要學習數據可視化等,需要學習的,還是比較多的,具體的,可以看下,大數據開發的學習路線,具體流程 - 大數據 多智時代,處在數據時代,入行大數據不會有錯。
我覺得數據分析和挖掘分軟實力和硬實力,硬實力就是各種工具使用以及演算法方法的理解,軟實力就是你對行業的把握,業務的理解,以及數據的敏感度。這兩個都要有…
你需要適應和使用不同的工具和編程語言。前面的回答裡面還沒有人提到使用數據挖掘的工具,比如ParseHub ,所以我建議你試著學習如何使用它們,以及學習如何寫代碼
除了看書寫代碼做Project看論文Google搜,沒有捷徑可走。經典數據挖掘書籍Jiawei Han &
推薦閱讀:
※用戶畫像建模:方法與工具
※機器學習和數據挖掘在網路安全領域會有哪些應用?
※關於數據降維的諸多演算法,測試數據必須要和訓練數據一起運算么?
※混淆矩陣是什麼意思?
※學習數據挖掘,機器學習的正確姿勢?