參與大數據競賽應該看什麼書?

最好能偏向實踐,解決具體問題,每一步都有詳細指導。


其他機器學習和數據挖掘的書知乎裡面的人應該已經推薦了很多了,這裡推薦兩本在國內似乎比較小眾而且偏應用的書。

首先,黃皮書是必看:

《Applied Predictive Modeling》

現在大數據競賽,本質上就是做預測性模型,這本書基本上手把手教你怎麼對現實世界中的很多很扭曲很噁心的數據集做預測性模型建模。

然後就是Python Machine Learning

這本書不僅比較全面地介紹了應用機器學習中的不少理論,而且他通過大量實例闡述如何用Python中的sklearn進行機器學習,最為精彩的部分我覺得在於他手把手教你怎麼用python搭機器學習的pipeline,怎麼ensemble模型(比如把邏輯回歸,決策樹,支撐向量機拼在一起做預測),怎麼通過格點搜索調參等等。現在很多大數據機器學習競賽,成敗關鍵除了特徵工程就是模型組合和調參,這本書正好填補了這一gap。然而這種競賽中最難的地方而且也是成敗最關鍵的還是特徵工程,這個真的case by case了,行業知識+建模經驗佔了很大的一部分。。。也不是一兩本書能夠講得清楚的。


謝邀!

國外的看kaggle,國內的你看下天池和DataCastle,天池我不太清楚,但是昨天還在上海理工做活動。DC的話,歷史的相關案例什麼的都還在的,可以研究下他們的歷史案例。如果想掌握一些理論或者最新資訊什麼的,也可以多關注下我準備做的公眾號:大數據二三事 這對你比賽還是有幫助的。

如果比賽取得好成績,對於找工作什麼的比剛剛畢業沒啥案例的會強很多,甚至於比賽名次高企業直接簽下你也是有可能的。


先附圖一張~

參加過CCF主辦的,WID承辦的大數據競賽,參加的創意賽,很榮幸進了決賽,還獲得了二等獎,就說說我準備的過程中用到的書和資料吧。

首先,書用的其實挺少的=。=我用到了李航老師的《統計學習方法》,主要看了裡面的SVM相關的知識。然後看了一些SPSS的書,對數據做了一些分析。再就一些大數據方面的,圖書館借的,名稱什麼也記不大住了。

其實我做的是創意類的,做的是一個基於運營商大數據的互聯網創新方案,主要用得到的資料是相關的論文,中文的主要到知網什麼的找找,外文的也會看看SCI、EI一些資料庫裡面的。

題中提到的:最好能偏向實踐,解決具體問題,每一步都有詳細指導。我覺得這個還是要自己動手,這個怎麼說呢,完事開頭難,在開始的時候,我覺得不敢相信自己能完成這個比賽,並獲得二等獎!之後整個過程都是在自己在摸索,搜索,試錯,修改這一個過程中,最後還經過了專家的意見,最後進行修改。

怎麼說呢,一定要相信自己,可以做到,整個比賽過程可以和老師同學交流,多上網搜索,千萬不要放棄,一步一步走下去就可能成功的。

最後,安利一下我參加的大賽。WID|WeInData|首頁 希望更多大神能參加比賽,學習到更多大數據的知識!


kaggle里的titanic比賽在介紹里推薦了兩個網站,上面不僅有語言的教程,也有實戰例子。之後就多看看kaggle比賽的論壇,有很多乾貨。


推薦閱讀:

kaggle上有哪些好的競賽項目?哪些適合入門,哪些適合進階
為什麼xgboost/gbdt在調參時為什麼樹的深度很少就能達到很高的精度?
如何看待mahout和milib之間的關係,mahout真的死了么?
天池大數據競賽和Kaggle、DataCastle的比較,哪個比較好?
用R語言的公司多嗎?

TAG:數據挖掘 | 數據科學家 | 大數據 |