有關anonymized data的競賽
最近kaggle又競賽荒,能提供medal,rank分又對硬體要求不高的貌似只有
Porto Seguro』s Safe Driver Prediction 這一個,然而這個比賽貌似用的是anonymized data
我於是找了幾個之前的比賽,發現都遵循一個套路:
1.揣測anonymized data的真實意義
2.brute force 創造feature,兩個、三個排列組合,非線性變換搞成百上千個feature。結合1效率會更高些
3.用上面的feature brute force 創造成百上千個gbdt、NN model ,再stack。
有些人說anonymized data可以讓大家不關心data,關心演算法本身,反正我是沒看出來,最後大家不還都是鼓搗幾個現有的黑盒子。上面的三個步驟其實對於真實工程毫無意義,反倒讓人對數據競賽產生壞印象:認為數據競賽就是暴力特徵工程,導致產生的特徵不可解釋;暴力stack,幾百個model沒法在工程中部署應用。比如在這個問題下,Kaggle的比賽和平時的數據分析有哪些區別?這些對數據競賽的負面印象好多都是這些anonymized data的比賽導致的。事實上很多非anonymized data競賽創造的feature都是可解釋的,冠軍的solution的stack model也就三五個。此外,anonymized data 還最容易出競賽事故,近有Mercedes-Benz Greener Manufacturing | Kaggle,遠有Restaurant Revenue Prediction | Kaggle,Santander Customer Satisfaction | Kaggle, 都是最後private leaderboard爆炸。
好了,吐槽這麼多,歸根究底是我沒有足夠的硬體玩這些套路,吃不到葡萄說葡萄酸~~畢竟好多kaggle grandmaster 就是靠專門刷這類型題拿到grandmaster。我也要學學套路,爭取以後也可以無腦混混銅牌什麼的,哈哈。
最後是我找到的以前的anonymized data 競賽,留著慢慢研究套路。
Santander Customer Satisfaction | Kaggle
Restaurant Revenue Prediction | Kaggle
Mercedes-Benz Greener Manufacturing | Kaggle
BNP Paribas Cardif Claims Management
Two Sigma Financial Modeling Challenge
Allstate Claims Severity | Kaggle
Bosch Production Line Performance
Predicting Red Hat Business Value
Telstra Network Disruptions | Kaggle
Springleaf Marketing Response | Kaggle
DataCastle[用戶人品預測競賽]--獲獎團隊分享 - CSDN博客
推薦閱讀:
※Numpy複習總結(一)
※《StackGAN: Text to Photo-realistic Image Synthesis with Stacked GAN》閱讀筆記
※關於Kaggle的一些數據分析
※自動生成硬體優化內核:陳天奇等人發布深度學習編譯器TVM
※機器學習之Logistic回歸(五)