有關anonymized data的競賽

最近kaggle又競賽荒,能提供medal,rank分又對硬體要求不高的貌似只有

Porto Seguro』s Safe Driver Prediction 這一個,然而這個比賽貌似用的是anonymized data

我於是找了幾個之前的比賽,發現都遵循一個套路:

1.揣測anonymized data的真實意義

2.brute force 創造feature,兩個、三個排列組合,非線性變換搞成百上千個feature。結合1效率會更高些

3.用上面的feature brute force 創造成百上千個gbdt、NN model ,再stack。

有些人說anonymized data可以讓大家不關心data,關心演算法本身,反正我是沒看出來,最後大家不還都是鼓搗幾個現有的黑盒子。上面的三個步驟其實對於真實工程毫無意義,反倒讓人對數據競賽產生壞印象:認為數據競賽就是暴力特徵工程,導致產生的特徵不可解釋;暴力stack,幾百個model沒法在工程中部署應用。比如在這個問題下,Kaggle的比賽和平時的數據分析有哪些區別?這些對數據競賽的負面印象好多都是這些anonymized data的比賽導致的。事實上很多非anonymized data競賽創造的feature都是可解釋的,冠軍的solution的stack model也就三五個。此外,anonymized data 還最容易出競賽事故,近有Mercedes-Benz Greener Manufacturing | Kaggle,遠有Restaurant Revenue Prediction | Kaggle,Santander Customer Satisfaction | Kaggle, 都是最後private leaderboard爆炸。

好了,吐槽這麼多,歸根究底是我沒有足夠的硬體玩這些套路,吃不到葡萄說葡萄酸~~畢竟好多kaggle grandmaster 就是靠專門刷這類型題拿到grandmaster。我也要學學套路,爭取以後也可以無腦混混銅牌什麼的,哈哈。

最後是我找到的以前的anonymized data 競賽,留著慢慢研究套路。

Santander Customer Satisfaction | Kaggle

Restaurant Revenue Prediction | Kaggle

Mercedes-Benz Greener Manufacturing | Kaggle

BNP Paribas Cardif Claims Management

Two Sigma Financial Modeling Challenge

Allstate Claims Severity | Kaggle

Bosch Production Line Performance

Predicting Red Hat Business Value

Telstra Network Disruptions | Kaggle

Springleaf Marketing Response | Kaggle

DataCastle[用戶人品預測競賽]--獲獎團隊分享 - CSDN博客


推薦閱讀:

Numpy複習總結(一)
《StackGAN: Text to Photo-realistic Image Synthesis with Stacked GAN》閱讀筆記
關於Kaggle的一些數據分析
自動生成硬體優化內核:陳天奇等人發布深度學習編譯器TVM
機器學習之Logistic回歸(五)

TAG:数据挖掘 | 机器学习 | Kaggle |