數據挖掘准研一學生如何通過努力進微軟?

本人211准研一學生,主攻數據挖掘方向,在實驗室主研究副項目,想通過2年的努力進微軟。請問:1.發表數據挖掘方向的高質量的論文(國際頂級會議),對進入微軟幫助有多大? 2.除了導師布置的任務,在2年的時間裡我還需要做什麼樣的準備,才能有資格去試試微軟


謝邀,不是微軟的,回答不了。

搞數據挖掘為什麼一定要去微軟。。。

高質量的論文很有用,但是很難中,水論文就算了,比如百度文庫中的。。。

第一步,溫習一些相關數學知識,比如概率論,統計學,微積分。

第二步,學習一些數據挖掘與機器學習原理與方法,可以去看吳恩達斯坦福公開課。。。順便去了解一下數據挖掘與機器學習的歷史。。。

第三步,找到一個或幾個明確的方向,數據挖掘方向太多,比如cv,nlp,data security,recommend,ir等,關鍵是你要感興趣,然後去查找所選擇的方向的發展歷史,這領域的奠定性文章,基本都是歪果淫寫的,所以你英文水平一定要,並且熟悉該領域的最新發展。。。

第四步,做相關項目,項目最基本的是數據,如果沒有數據,那麼就去UCI Machine Learning Repository下載,裡面有很多公共數據集。如果你覺得這些數據集太純,那麼可以去爬蟲。國內的有個數據堂數據堂:國內首家大數據共享交易平台也可以下載,裡面有很多是爬蟲得到的數據,不過要錢。總之,實踐實踐再實踐,有項目認真做項目,嘗試不同的方法,沒有項目,自己創造項目。也可以去參加比賽,比如國內的阿里天貓推薦大賽,國外的(Kaggle: The Home of Data Science),(KDD CUP 2015),ImageNet等。

最後,面試公司時準備充分,比如你的項目等。

總之,你以後想去公司做數據挖掘與機器學習,實踐是必不可少的。

當然你可以去寫paper,讀個博士,美帝等去鍍個金,也是可以的,就看你的愛好。

我的觀點:為什麼要強調實踐,因為機器學習,特別是神經網路,深度學習,在是一門科學的基礎上,更加是一門藝術,效果的好壞取決於個人的經驗,造詣與修為。

另一個,要去公司,那麼與工程師脫離不開,所以需要碼代碼,因此做數據挖掘需要學習一些最新的大數據處理工具,比如離線處理的MapReduce(Hadoop),基於內存迭代的Spark(目前很火),實時計算的Storm,以及Hive,Hbase,NoSql的資料庫,當然也需要了解一些數據倉庫,數據預處理的知識,與一些關係型資料庫(MySql,Oracle)的知識。以及,Java,Python,SQL,C++,Scala, Shell等編程知識,我目前使用的幾種編程語言便是(Java&>=SQL&>Python&>Scala&>Shell&>C++,按照頻率排序,甚至sql最頻繁)

最後再強調一句,積累實戰經驗,記錄在這些過程中,自己踩過的坑。

多看一些高水平paper,比如NIPS,ICML,IJCAI,CVPR,ICCV,AAAI,ICDM SDM KDD等。

結尾,給一些機器學習與數據挖掘的開源工具:

推薦!國外程序員整理的機器學習資源大全


可能MSRA會比較適合但是難度大啊,Bing也有可能會需要。最好先找找實習的機會。


關鍵問題是你想去微軟哪裡?

去微軟繼續做數據挖掘,還是只要是計算機行業都可以。

信息在豐富一點,比較容易回答。

還有城市真的很關鍵…


我也研一,我覺得,數據挖掘有兩條路,做應用和演算法,應用只要了解演算法原理,知道演算法目的,用或者修改現成的庫,以實現產品為目的,這個方向聽說是不好發論文的,對發論文還沒有經驗,,

做演算法的話,就要對各個演算法的原理非常了解,經典演算法有必要模擬一遍,是以準確率為目的的,想法改進演算法,

讀研半年的個人見解,,,不對的地方隨時指正


推薦閱讀:

為啥IE不增加書籤同步的功能?
如何評價遊戲《國家的崛起》(Rise of Nations)及其資料片《愛國者與王座》(Thrones and Patriots)?
HoloLens 離刀劍神域還有多遠?
為什麼微軟要在 Windows 10 中使用全新的 Edge 瀏覽器?Edge 和 IE 有何不同?
微軟的統一全平台計劃現狀如何?

TAG:微軟Microsoft | 數據挖掘 |