標籤:

《Aspect-Aware Latent Factor Model: Rating Prediction with Ratings and Reviews》閱讀筆記

《Aspect-Aware Latent Factor Model: Rating Prediction with Ratings and Reviews》閱讀筆記

來自專欄 西土城的搬磚日常

論文來源:WWW2018

論文鏈接:Aspect-Aware Latent Factor Model: Rating Prediction with Ratings and Reviews

1、問題介紹

本文是針對類似亞馬遜網站的商品推薦研究,主要考慮的信息是用戶對商品的打分以及用戶對商品的評論。給定的原始數據包含用戶,商品,打分以及評論,經過處理之後,即把某個商品的所有評論信息concat當作該商品的表示文檔,某個用戶的所有評論信息concat當作該用戶的表示文檔,最終的訓練數據格式是用戶,商品,打分,用戶表示文檔,商品表示文檔。在測試過程中,給定用戶,商品,用戶表示文檔,商品表示文檔,需要儘可能精確預測該用戶對該商品的打分。

本文模型是對隱向量模型(MF)的一種改進,傳統的隱向量模型中用戶和物品的隱向量是通過全局最優求得,這使得對某一對用戶和物品,可能該隱向量未必是最優的。MF通過用戶和物品的點積來預測打分,如果把物品隱向量的某一維看成是某個和打分相關的factor,那麼MF是把所有的factor同等看待的,在預測打分的時候各個factor是同等重要的,但是對於精確的預測來說,需要考慮到每個用戶對於各個factor的重視程度。因此本文提出了基於aspect的隱向量模型。

2、關鍵詞解釋

Aspect:在本文中aspect是一種高層次的語意表示,是用戶在review中表達出的item屬性,例如對於餐廳來說,食物和服務都可以當作aspect。

Factor or Topic:和aspect相比,這是一種低層次的語意表示,例如對於食物來說,中國菜和泰國菜就可以當作factor。

3、基於aspect的隱向量模型

作者的出發點基於下述2點:

(1)不同的用戶可能關心同一個物品的不同的aspect;

(2)對於相同的aspect,不同用戶的喜好也是不一樣的;

因此最終的打分預測可以表示為:

其中a表示某個aspect,aspect的數量是超參數。

  • aspect rating 預測

aspect rating反應了在某個aspect上用戶對物品的滿意程度。滿意程度包括2方面:(1)首先在該aspect上物品必須包含用戶感興趣的factor;(2)更進一步該factor必須質量高。

根據review,可以學到在某個aspect上用戶和物品的表示向量,因此(1)的打分可以表示:

但是 s_{u,i,a} 越大,並不代表用戶對物品的滿意度越高,因為有可能該factor的質量低。factor的質量可以通過用戶的打分來衡量。這裡作者藉助MF方法,使得 r_{u,i} = p_{u}cdot q_{i} ,通過引入aspect和factor的關聯矩陣 W 得到用戶在aspect a上的興趣:

同理也可以得到物品在aspect a上的特性向量,因此在aspect a上用戶對物品的質量滿意度可以表示為 p_{u,a}cdot q_{i,a} ,用戶對物品的aspect 打分可以表示為:

  • aspect importance 預測

作者用user的review來估計aspect的重要性,因為用戶經常在評論中討論他們感興趣的topics(某個aspect有多個topics,例如食物的topic可以是某種菜)。在寫review的時候,某些用戶傾向於評論自己關注的aspect,另一些用戶傾向於寫物品最引人注目的aspect。因此用戶在aspect a上評論的可能性可以表示為:

其中 pi_{u} 表示用戶從自己的喜好寫review的概率, lambda_{u,a} 是用戶基於自己喜好在aspect a評論的概率, lambda_{i,a} 是用戶基於物品的特性在aspect a上評論的概率。這些參數會根據後續的aspect-aware topic model學到。

  • aspect-aware topic model

作者基於review去學習aspect相關的向量表示,把寫review的過程細分(和LDA類似,但是加入了aspect):

其中 phi_{k,w} 是主題在單詞上的分布, 	heta_{u,a}varphi_{i,a} 分別表示用戶和物品在aspect上對應的主題分布, lambda_{u}lambda_{i} 表示用戶和物品在aspect上的分布。上述ATM的生成過程是無監督的。

  • inference 和loss

根據ATM的結果,可以得到:

4、實驗與結果分析

  • 數據集

  • performance

採用rmse作為評價標準,下述模型中BMF只用了打分信息,HFT、CTR、RMR和RBLT是採用詞袋模型(例如LDA)對review建模,TransNet採用CNNs對review建模。

細分用戶與item的喜好之後,可以看到打分準確度的提高。

5、結論

本文最出彩的地方是採用ATM描述review的生成過程,可以說是在LDA上的一個改進,值得學習與借鑒。


推薦閱讀:

寵物蛇類的品種推薦
4· 強力推薦|10月1日什麼電影最好看?這部片子一定很火的!
備婚攻略 | 除了酒店浴袍,婚禮當天早上還能穿什麼?
文忠推薦----男人如何處理母親與妻子的關係
想買剃鬚刀,有什麼好的推薦嗎?

TAG:推薦 |