增強學習在推薦系統有什麼最新進展?

貌似用增強學習或mdp在推薦系統上做文章的不多。看到有的是2005年的文章 後來就沒有了。


這方面的工作有點超前,確實見得不多。增強學習一般用來解決推薦系統中的瀏量探索以及用戶-系統交互問題。

用戶的行為影響推薦系統,推薦系統又反過來影響用戶的行為,循環往複;除了這種模型自身的擾動,還有運營手段以及外部大環境的干擾,很多因素都在改變數據中的規律。而傳統機器學習模型一般是相對靜態的,都是截取過去某一個時間片的規律來預測未來。潛在假設是過去的規律在未來同樣有效,這種假設在現實面前還是too young too simple,sometimes naive。模型剛上線效果非常好,運行一段時間之後慢慢變得不起作用。目前看到兩條路嘗試解決這個問題:

  • 一條路是「與時俱進」,更快的模型更新直到在線學習
  • 另一條路是引入博弈論,強化學習對用戶-系統交互行為進行建模

看3個鏈接:

#1 知人知面需知心--論人工智慧技術在推薦系統中的應用 - 極客頭條 - CSDN.NET

#2 在線AI技術在搜索與推薦場景的應用-雲棲社區

#3 劉鐵岩:博弈機器學習是什麼? - 微軟亞洲研究院


可以看看阿里技術的文章,他們還為了去年雙十一專門寫了一本書,裡面幾個章節專門講這個。


谷歌在2015年發表的一篇文章中就涉及到增強學習在推薦系統上的應用。題目為《Reinforcement_Learning_in_Large_Discrete_Action_Space》


有文章的,講一下前面的答案沒提到的吧。

就我知道的,Bandit演算法,尤其是Contextual Bandit,在推薦系統裡面有應用。比如Yahoo在2010年發表的文章」A Contextual-Bandit Approach to Personalized News Article Recommendation「裡面提到了解決新聞推薦和冷啟動問題的LinUCB演算法。差不多是同樣的作者還有一篇「Contextual Bandit Algorithms with Supervised Learning Guarantees」提出了Exp4的修改版---Exp4.P,實驗用的數據還是Yahoo個性化新聞推薦。當然了,傳統的UCB演算法,或者epsilon-greedy演算法也可以用來做推薦,效果沒Contextual Bandit那麼好罷了。

有人基於協同過濾和bandit的思想,針對靜態的推薦問題,提出了COFIBA(咖啡吧)演算法,詳情可見如下兩個鏈接,其中第二個是代碼。

https://github.com/qw2ky/CoLinUCB_Revised/blob/master/COFIBA.py


推薦閱讀:

TAG:機器學習 | 推薦系統 | 深度學習DeepLearning | 強化學習ReinforcementLearning |