增強學習在推薦系統有什麼最新進展？

01-27

貌似用增強學習或mdp在推薦系統上做文章的不多。看到有的是2005年的文章後來就沒有了。

這方面的工作有點超前，確實見得不多。增強學習一般用來解決推薦系統中的瀏量探索以及用戶-系統交互問題。

用戶的行為影響推薦系統，推薦系統又反過來影響用戶的行為，循環往複；除了這種模型自身的擾動，還有運營手段以及外部大環境的干擾，很多因素都在改變數據中的規律。而傳統機器學習模型一般是相對靜態的，都是截取過去某一個時間片的規律來預測未來。潛在假設是過去的規律在未來同樣有效，這種假設在現實面前還是too young too simple，sometimes naive。模型剛上線效果非常好，運行一段時間之後慢慢變得不起作用。目前看到兩條路嘗試解決這個問題：

一條路是「與時俱進」，更快的模型更新直到在線學習
另一條路是引入博弈論，強化學習對用戶-系統交互行為進行建模

看3個鏈接：

#1 知人知面需知心--論人工智慧技術在推薦系統中的應用 - 極客頭條 - CSDN.NET

#2 在線AI技術在搜索與推薦場景的應用-雲棲社區

#3 劉鐵岩：博弈機器學習是什麼？ - 微軟亞洲研究院

可以看看阿里技術的文章，他們還為了去年雙十一專門寫了一本書，裡面幾個章節專門講這個。

谷歌在2015年發表的一篇文章中就涉及到增強學習在推薦系統上的應用。題目為《Reinforcement_Learning_in_Large_Discrete_Action_Space》

有文章的，講一下前面的答案沒提到的吧。

就我知道的，Bandit演算法，尤其是Contextual Bandit，在推薦系統裡面有應用。比如Yahoo在2010年發表的文章」A Contextual-Bandit Approach to Personalized News Article Recommendation「裡面提到了解決新聞推薦和冷啟動問題的LinUCB演算法。差不多是同樣的作者還有一篇「Contextual Bandit Algorithms with Supervised Learning Guarantees」提出了Exp4的修改版---Exp4.P，實驗用的數據還是Yahoo個性化新聞推薦。當然了，傳統的UCB演算法，或者epsilon-greedy演算法也可以用來做推薦，效果沒Contextual Bandit那麼好罷了。

有人基於協同過濾和bandit的思想，針對靜態的推薦問題，提出了COFIBA（咖啡吧）演算法，詳情可見如下兩個鏈接，其中第二個是代碼。

SIGIR 2016 COFIBA - Collaborative Filtering Bandits, the 39th ACM SIGIR. from Shuai Li

https://github.com/qw2ky/CoLinUCB_Revised/blob/master/COFIBA.py