kaggle上有哪些好的競賽項目?哪些適合入門,哪些適合進階
幾個個人建議,權作拋磚引玉。
1,做有Reward那種,且仍然active的比賽。這類比賽牛人參加會比較多,競爭比較激烈,分數會計入ranking。deadline的push壓力也比較緊,knowledge類基本沒什麼壓力。壓力大,才會逼迫自己一直調整演算法。(對我這種拖延患者是這樣的)
active的比賽,更有未知性,勝者solution沒有公布。每天限定的submission次數也會迫使自己不段調model,試cross validation。
2,做Classification的。不是regression不能做,是太難了,一般regression對feature選擇要求較高,有相關業務背景做起來會很合適,不然很容易做的沒信心了。classification上手容易,演算法多樣,適合大部分人。至於其他類,optimization什麼的,與主流dm還是隔得比較遠。
3,具體classification裡面,推薦做正負樣本比較均衡(大於5%都可以接受),數據量較大的。因為在比賽結束前,leaderboard只是基於小部分test set算的(20%)。如果數據量很少或不均衡,單個樣本的結果會對leaderboard score產生巨大影響,通常不是衡量模型的好標準,小白非常容易迷失在leaderboard之中,overfit LB。例如,Liberty Mutual, Allstate. 這些數據由於保險行業的low frequency特徵,極度不平衡,沒有業務知識上手會比較困難,不推薦新手(當然也可能是我比較弱)
以上三點,僅是一家之言,我也是今年八月開始做,大概十月以後忙於學業,就沒怎麼碰了。現在的比賽中active的就那麼幾個,比較推薦的是Avazu CTR Prediction,CTR也是一個應用很廣,很有錢景的方向(當然,太成熟了,很多已經被做透了)。一直覺得有教程的才是最適合入門的,so Titanic!進階的就不好說了,從101開始往上到play ground再一些有獎的比賽之類的
趁現在回答不多來獻個丑:
Kaggle作為全球最大的數據建模和數據分析競賽平台,數據來源於各行各業的研究者,參與者中既有頂尖的數據挖掘專家和統計學者,也有初入職場的數據分析師甚至學生,自然也會有適合不同層次選手的項目供大家選擇。因此,好與不好也是要結合自己的目的來看:
對於以學習為主要目的新手,Tutorial資源豐富的就是好項目,比如101和playground中的練習賽,這樣的項目可以單人參與,省去了組隊的麻煩,可以幫助大家快速熟悉Kaggle比賽流程,我們的專欄中「0基礎如何上手Kaggle」這一部分中非常貼心的給出了三個經典練習的參考資源供大家練習。
對於想要獲得較高排名但水平較為一般的同學,參與人數多、難度低、獎金少的項目就是好項目(詳情可以看「Kaggle入門,看這一篇就夠了」);
對於喜歡挑戰高難度項目獲取快(jiang)感(jin)的大神,案例複雜而酬金豐厚的Feature類項目才是好項目~
最後,給自己的專欄打廣告吧:Kaggle入門,看這一篇就夠了
Kaggle系列第一期:Titanic baseline - 知乎專欄
正在做一個專欄,以kaggle各個比賽為引,面向初學者
包含機器學習及數據可視化內容,樓主若有興趣可以一觀
我很想說,有solid背景和比賽經驗,而且想跳到quant坑裡的請pm我簡歷,該信息長期有效。
推薦閱讀:
※為什麼xgboost/gbdt在調參時為什麼樹的深度很少就能達到很高的精度?
※如何看待mahout和milib之間的關係,mahout真的死了么?
※天池大數據競賽和Kaggle、DataCastle的比較,哪個比較好?
※用R語言的公司多嗎?
※SVD 降維體現在什麼地方?