有關anonymized data的競賽

01-27

最近kaggle又競賽荒，能提供medal，rank分又對硬體要求不高的貌似只有

Porto Seguro』s Safe Driver Prediction 這一個，然而這個比賽貌似用的是anonymized data

我於是找了幾個之前的比賽，發現都遵循一個套路：

1.揣測anonymized data的真實意義

2.brute force 創造feature，兩個、三個排列組合，非線性變換搞成百上千個feature。結合1效率會更高些

3.用上面的feature brute force 創造成百上千個gbdt、NN model ，再stack。

有些人說anonymized data可以讓大家不關心data，關心演算法本身，反正我是沒看出來，最後大家不還都是鼓搗幾個現有的黑盒子。上面的三個步驟其實對於真實工程毫無意義，反倒讓人對數據競賽產生壞印象：認為數據競賽就是暴力特徵工程，導致產生的特徵不可解釋；暴力stack，幾百個model沒法在工程中部署應用。比如在這個問題下，Kaggle的比賽和平時的數據分析有哪些區別？這些對數據競賽的負面印象好多都是這些anonymized data的比賽導致的。事實上很多非anonymized data競賽創造的feature都是可解釋的，冠軍的solution的stack model也就三五個。此外，anonymized data 還最容易出競賽事故，近有Mercedes-Benz Greener Manufacturing | Kaggle，遠有Restaurant Revenue Prediction | Kaggle，Santander Customer Satisfaction | Kaggle，都是最後private leaderboard爆炸。

好了，吐槽這麼多，歸根究底是我沒有足夠的硬體玩這些套路，吃不到葡萄說葡萄酸～～畢竟好多kaggle grandmaster 就是靠專門刷這類型題拿到grandmaster。我也要學學套路，爭取以後也可以無腦混混銅牌什麼的，哈哈。

最後是我找到的以前的anonymized data 競賽，留著慢慢研究套路。

Santander Customer Satisfaction | Kaggle

Restaurant Revenue Prediction | Kaggle

Mercedes-Benz Greener Manufacturing | Kaggle

BNP Paribas Cardif Claims Management

Two Sigma Financial Modeling Challenge

Allstate Claims Severity | Kaggle

Bosch Production Line Performance

Predicting Red Hat Business Value

Telstra Network Disruptions | Kaggle

Springleaf Marketing Response | Kaggle

DataCastle［用戶人品預測競賽］--獲獎團隊分享 - CSDN博客