點擊率模型中遞進特徵適合一起訓練嗎?

解釋下題目中的遞進特徵,對於一個item,曝光-&>點擊-&>評論 依次是遞進特徵。在做點擊率模型的過程中,嘗試同時用了歷史點擊率和評論率特徵,訓練出來的模型中歷史點擊率是強正相關特徵,但是發現評論率是弱負相關,這個太違背直覺了!觀察了一些數據發現點擊率高的item評論率反而不會很高,評論轉化是一個很困難的行為,是不是正因為同時用這兩個特徵導致那樣一個模型結果?但是顯然直接這樣用不太合理,是不是訓練模型的姿勢不對?


這個問題就看你是想用傳統手段來解決還是要玄學來解決了。

如果你選擇用玄學手段,那特徵越多越好,丟給DL去算即可,要注意的是剪枝優化。

如果你選擇用傳統手段,首先我覺得拿歷史點擊率來預測未來點擊率並不是一個可取的特徵,打個比方來說你能通過歷史一個月的滬深指數來預測明天大盤是漲還是跌嗎?畢竟CTR不像天氣預報那樣可以通過時間序列分析來得出一個靠譜的結果。

所以從傳統套路上來說,這裡會被分為CTR和CVR兩個模型。CTR模型表示為 p(click|u, i, a),u表示用戶user,i表示展現位inventory,a表示compaign,用來預測點擊率。CVR模型 p(conversion|u, i, a) 用來預測下一遞進轉化,比如題主說的評論,或者是電商購買,或者是手游註冊充值等等。綜合考察的指標當然是CTR * CVR,所以這裡是一個組合模型,在特徵工程上就會特別講究,尤其在樣本採樣上得下非常非常大的工夫,因為正負樣本比例十分懸殊。我這邊不了解你樣本的具體情況所以不好分析,就推薦題主看一下張偉楠 glist 中關於 CTR/CVR Estimation 的部分,應該會對你有很大的幫助。

GitHub - wnzhang/rtb-papers: A collection of research and survey papers of real-time bidding (RTB) based display advertising techniques.

你說違背直覺的情況,我覺得是非常有可能出現的。以廣告投放舉例,比如你把房地產廣告上掛上大胸美女圖,投到比較屌絲的小說網站上。那麼CTR會比較高,但是沒有轉化,CVR極低。相反,如果你換成高冷的廣告圖,投到高爾夫俱樂部之類高大上的網站上,可能CTR低,但CVR會相對較高。然後你再拿歷史CVR作為特徵來預測未來CVR,相關性一定是非常弱的,這個可以通過皮爾遜、互信息係數來檢驗。


Feature 的選取和 [正相關] 還是 [負相關] 沒有關係,甚至在理論上和 [相關] 都沒有關係。機器學習乾的就是自動學 feature 前的係數啊。選 feature 最重要的是避免 overfitting ,在這個前提下, feature 越多越雜越好。所以會有類似於像 FM 或者 FFM 這樣的嘗試模擬特徵二次組合的演算法。不過,如何避免 overfitting 真的挺難的。


為什麼不能放在一起訓練,只要不是未來變數,特徵越『雜』越好。違背直覺又如何,要機器學習幹啥,不就是因為人的直覺不可信嗎。


推薦閱讀:

深度學習領域有哪些瓶頸?
搞架構和搞演算法,哪個更牛一些?
用「機器學習」做「股票預測」能做到什麼程度?
人工智慧是不是只是一場鬧劇?
目前各大互聯網公司中,哪些AI團隊值得加入?

TAG:演算法 | 機器學習 | 預測模型 | 深度學習DeepLearning |