如何循序漸進的學習數據挖掘?

我在論壇上看見MGFA四家IT巨頭的麵筋,很多人都按照一套基本的成長路線去準備,然後面試: Java-&>UC Berkerley data structure-&>Programming Interview Exposed-&>CC 150-&>Leetcode。 但是我希望畢業後能從事數據挖掘,big data developer方面的工作。對於大數據開發,目前我只淺顯地了解到了Hadoop及其pig開發平台,對於其他方面我就沒有了解了,我想希望大神們能給我建議一套大數據開發的學習路線。目前我才完成了java的基礎學習,還沒開始學數據結構和MapReduce模型, 也不知道做這一塊的話我需要學習那些演算法,我不想盲目地把時間花在刷演算法的題目上,希望大神能幫幫我這個初學者!感激不盡!


敝人目測有兩條路線:

分散式系統: Java -&> 數據結構 -&> 演算法 -&> C -&> 操作系統/計算機網路 -&> 本科畢業 -&> 分散式系統/分散式存儲 -&> 碩士畢業 -&> 刷題 -&> Software Engineer (Infrastructure)

機器學習: Java -&> 數據結構 -&> 演算法 -&> 微積分/線代 -&> 概率/統計 -&> 本科畢業 -&> 機器學習 -&> 凸優化/PGM -&> 非參數統計/核方法等 -&> 發高質量論文 -&> 博士畢業 -&> Data Scientist


謝邀。我不是典型例子。

從事數據掘挖需要懂得機器學習和自然語言處理,而要懂得這些,就首先要懂得概率論的東西。知道各類型演算法,再想想有那些可以用MapReduce,有那些可以做online learning(有些演算法不容許的)。有空看看Tech News,加強感覺。

我理論物理出身,我面試時跟他說我不懂機器學習,但我知道機器學習是statistics and optimization,然後給了一個講座,我想大概面試的人當中有一個核化學博士,所以就請我了。。。


理論基礎入門

數據挖掘導論 (豆瓣)

java機器學習的庫使用

Mahout in Action (豆瓣)

用weka進行數據挖掘

數據挖掘實用機器學習技術 (豆瓣)

以上算是入門吧,java方面的。

python和ruby最好也要會一門。不過還是先把這三本看完+敲完,應該怎麼學自己也就有思路了。


推薦閱讀:

ACM書籍推薦?
求10的一億次方對較小整數p取余的餘數?
oj上演算法題思路正確,程序也跑的起來,但是為了ac搞幾個小時,這樣有意義嗎?
n鐵球稱重問題(12個鐵球3次找出壞的擴展)?
存在不失真圖片放大演算法嗎?

TAG:演算法 | 數據挖掘 | 數據分析 | 數據處理 | 大數據 |