為什麼工業界喜歡用LR模型?
為什麼工業界喜歡用LR模型?除了CTR預估,LR還能做什麼任務?
工業界和學術界是不太一樣的。
工業界需要做的事情首先應該是提升商業價值,在提升商業價值的同時,就不太可能去嘗試一些非常有風險的高大上演算法。在保證商業價值的過程中,很可能就要使用一些穩妥一點的方法,例如LR進行CTR預估,或者基於ItemCF的個性化推薦。而且工業界的數據量通常會很大,幾百萬的樣本,幾千維的特徵基本上都不算什麼事情。LR在這個時候能夠兼顧計算速度,解釋性,線上打分速度快等各種優勢,所以在工業界LR算是比較常見的演算法。
學術界就完全不一樣了,首先學術界是不會把成熟的演算法反覆研究的,例如LR這些演算法可能就沒有繼續調研的價值。然後學術界要保持自身的先進性,會主動研究一些有風險的方案,例如各種各樣高大上的演算法。再次就是學術界的樣本集其實不算太大,用戶數量也不算太多,在處理小數據集合和大數據集合的時候,要考慮的因素會變得很多。不過學術界一旦有什麼演算法可以在工業界大規模推廣並且提升商業價值的時候,工業界是一定會使用的。
有些模型可以很好的擬合數據,但解釋度幾乎為0。有些模型可以很好的解釋模型的輸出,但擬合度較低。而LR(Logisitic Regression)是在數據的擬合度和模型解釋度都能兼顧,而且兼顧得比較好的演算法!
快速,可以承載大數據量,可以有效處理離散化過的連續值數據,feature自解釋性,等等。
還有就是是線下訓練出來權重詞表,線上載入即可。BAYES,KNN等就完全做不到微信公眾號: 數據烏托邦跟你一起分享數據挖掘、機器學習、計算廣告的那些事剛做了LR,CNN+RNN,基於用戶的物品推薦,可以嘗試答一波。LR模型優點就是,簡單粗暴,可解釋性強,tensorflow框架下130行左右搞定,而且可以保存參數值(y=ax+b,保存a,b),線上預測的時候直接載入,簡直不要太好。cNN和rNN的話,需要有很多的樣本,而且可解釋性差,感覺完全就是黑盒使用,對於像我這樣的新手來說,只能是調調超參數而已(tensorflow下來500行左右,文本預測任務)。基於用戶的物品推薦,使用的是Spark的MLlib平台,要求前期的數據處理得到位。
好像答偏了,簡言之:方便!!!
簡單粗暴效率高。弄那麼複雜的演算法,簡直是玄學。
推薦閱讀:
※打劫對於AlphaGo來說,真的增加了難度嗎(周志華的觀點正確嗎)?
※對於PCA或者SVD在降維來說,是去去除了相似性高的列?還是去掉信息量少的列?
※Logistic回歸的檢驗方法有哪些?R中有比較完備的處理logit回歸的包嗎?
※關於GBDT的幾個不理解的地方?
※GBDT預測時每一棵樹是否能並行?