ctr(廣告點擊率)預估關於特徵的思考
04-30
到目前位置,相信工程領域演算法的主流應該還是LR或者以LR為基礎的模型為主。那麼關於LR,工程界好像有一些共識: 特徵離散化可以得到更好的效果。總結下原因:
- 離散特徵在工程上容易設計,計算的時候計算邏輯簡單。比如工程實現可以直接對離散特徵的特徵編號+取值做hash,來當作他最終的特徵id,某些大廠就這麼做,邏輯簡單粗暴。
- 離散化後,做分段,對異常數據有比較好的魯棒性,比如年齡,>30歲為1,那麼有異常數據哪怕是300歲,取值也不會有多大的問題。當然有人可能質疑,我用連續特徵也會歸一化,那麼請看第三點
- 特徵分段離散化後,每一個取值都有一個單獨的權重,能提升表達能力。比如一個連續值特徵0-1, 可能0-0.2部分的差異度要小於0.8-1的差異度,而如果用連續特徵,兩者公用一個權重,那這裡就體現不出來
- 離散化後,可以對特徵進行交叉組合,引入非線性因素。這個非常重要!
- 引入一些離散的id屬性,比如廣告id,可以直接學習到這個廣告的「好壞」,然後一般往往會拿id和一些其他的屬性做組合。
離散化的弱點:
分段後,可能原本很接近的兩個連續值被離散到兩個不同的閾值,會帶來不好的影響。第二,分段的確會屏蔽掉一些差異華因素。其他的點我還沒想到。歡迎大家一起補充
附兩個感覺還不錯的文章:
計算廣告之特徵工程
互聯網廣告系統綜述七特徵 - mytestmy的專欄 - CSDN博客
https://zhuanlan.zhihu.com/p/29053940 一個當前ctr演算法的總結
推薦閱讀:
※AI——「猜你喜歡」是怎麼產生的?
※《推薦系統 - 技術、評估及高效演算法》 - 第4章 基於近鄰推薦方法綜述
※VII.應用-推薦系統-基於RBM的推薦演算法
※FM演算法
※搜索結果排序原理
TAG:推薦演算法 |