數據挖掘准研一學生如何通過努力進微軟？

01-07

本人211准研一學生，主攻數據挖掘方向，在實驗室主研究副項目，想通過2年的努力進微軟。請問：1.發表數據挖掘方向的高質量的論文（國際頂級會議），對進入微軟幫助有多大？ 2.除了導師布置的任務，在2年的時間裡我還需要做什麼樣的準備，才能有資格去試試微軟

謝邀，不是微軟的，回答不了。

搞數據挖掘為什麼一定要去微軟。。。

高質量的論文很有用，但是很難中，水論文就算了，比如百度文庫中的。。。

第一步，溫習一些相關數學知識，比如概率論，統計學，微積分。

第二步，學習一些數據挖掘與機器學習原理與方法，可以去看吳恩達斯坦福公開課。。。順便去了解一下數據挖掘與機器學習的歷史。。。

第三步，找到一個或幾個明確的方向，數據挖掘方向太多，比如cv，nlp，data security，recommend，ir等，關鍵是你要感興趣，然後去查找所選擇的方向的發展歷史，這領域的奠定性文章，基本都是歪果淫寫的，所以你英文水平一定要，並且熟悉該領域的最新發展。。。

第四步，做相關項目，項目最基本的是數據，如果沒有數據，那麼就去UCI Machine Learning Repository下載，裡面有很多公共數據集。如果你覺得這些數據集太純，那麼可以去爬蟲。國內的有個數據堂數據堂：國內首家大數據共享交易平台也可以下載，裡面有很多是爬蟲得到的數據，不過要錢。總之，實踐實踐再實踐，有項目認真做項目，嘗試不同的方法，沒有項目，自己創造項目。也可以去參加比賽，比如國內的阿里天貓推薦大賽，國外的(Kaggle: The Home of Data Science)，(KDD CUP 2015)，ImageNet等。

最後，面試公司時準備充分，比如你的項目等。

總之，你以後想去公司做數據挖掘與機器學習，實踐是必不可少的。

當然你可以去寫paper，讀個博士，美帝等去鍍個金，也是可以的，就看你的愛好。

我的觀點：為什麼要強調實踐，因為機器學習，特別是神經網路，深度學習，在是一門科學的基礎上，更加是一門藝術，效果的好壞取決於個人的經驗，造詣與修為。

另一個，要去公司，那麼與工程師脫離不開，所以需要碼代碼，因此做數據挖掘需要學習一些最新的大數據處理工具，比如離線處理的MapReduce（Hadoop），基於內存迭代的Spark（目前很火），實時計算的Storm，以及Hive，Hbase，NoSql的資料庫，當然也需要了解一些數據倉庫，數據預處理的知識，與一些關係型資料庫（MySql，Oracle）的知識。以及，Java，Python，SQL，C++，Scala, Shell等編程知識，我目前使用的幾種編程語言便是（Java&>=SQL&>Python&>Scala&>Shell&>C++，按照頻率排序，甚至sql最頻繁)

最後再強調一句，積累實戰經驗，記錄在這些過程中，自己踩過的坑。

多看一些高水平paper，比如NIPS，ICML，IJCAI，CVPR，ICCV，AAAI，ICDM SDM KDD等。

結尾，給一些機器學習與數據挖掘的開源工具：

推薦！國外程序員整理的機器學習資源大全

可能MSRA會比較適合但是難度大啊，Bing也有可能會需要。最好先找找實習的機會。

關鍵問題是你想去微軟哪裡？

去微軟繼續做數據挖掘，還是只要是計算機行業都可以。

信息在豐富一點，比較容易回答。

還有城市真的很關鍵…

我也研一，我覺得，數據挖掘有兩條路，做應用和演算法，應用只要了解演算法原理，知道演算法目的，用或者修改現成的庫，以實現產品為目的，這個方向聽說是不好發論文的，對發論文還沒有經驗，，

做演算法的話，就要對各個演算法的原理非常了解，經典演算法有必要模擬一遍，是以準確率為目的的，想法改進演算法，

讀研半年的個人見解，，，不對的地方隨時指正