《A?ttentive Collaborative Filtering:》閱讀筆記
由於標題太長無法保存,故截取了部分標題,完整標題如下:
A?ttentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level Att?ention
論文來源:SIGIR2017
論文鏈接:A?ttentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level A?ttention
1、問題介紹
本文針對多媒體領域的推薦,多媒體主要指video和image。大多數的協同過濾系統忽略了用戶與多媒體內容交互的隱式反饋信息,作者認為在多媒體領域存在著item-level和component-level的隱式反饋;item-level的隱式反饋是指用戶對視頻或者圖片的喜好是未知的,component-level的隱式反饋是指用戶對item的components(可以是圖片的某一部分或者視頻的某一幀)的喜好是未知的。
item-level的隱式反饋:每個用戶都通過顯示反饋(例如對物品的評分)與一系列物品相連, 然而用戶對這一系列的物品的喜好程度是不一樣的,例如用戶對某些視頻的「喜歡」可能是由於朋友的推薦,並不是他真正的喜好。甚至對於用戶真正喜歡的視頻,視頻之間的喜好程度也是有差別的。用戶對視頻的喜好信息沒有被提供的情形被稱為item-level的隱式反饋。
component-level的隱式反饋:指的是用戶對視頻的某一幀的喜好程度是未知的。
2、模型結構
作者提出ACF模型(A?ttentive Collaborative Filtering)來對多媒體進行推薦。上圖中的 表示item j的第l個component; 表示第l個component的attention; 表示item j對user i的item-level的attention。用戶的隱向量由與用戶交互過的物品向量 和用戶的偏置向量 來建模,每個交互物品對用戶向量的貢獻是有差異的,體現為下述公式中 的大小。所以每個物品有2個隱向量,一個表示該物品的特徵向量 ,另一個表示對用戶建模的隱向量 。 表示與用戶i交互過的物品的集合。ACF用BPR pairwise目標函數:
預測打分:
與領域推薦的關係:
後面一項是加權的領域模型推薦表示。傳統的領域推薦是對每個交互物品同等看待的,也就是相同的權重。
3、attention的構建
attention分為item-level和component-level。由component-level的attention加權生成item的內容向量 ,之後由該內容向量 和item的隱向量 ,以及user的偏置隱向量 和物品的貢獻向量 得到某個item對某個user的attention。
3.1 component-level attention生成
作者用2層神經網路對component-level的attention建模:
attention根據當前用戶偏置向量 和component內容向量 經過2層神經網路生成。表示每個用戶對每個item的不同的component的喜好是有區別的,所以最終得到的item的內容向量 是針對每個用戶的個性化內容向量。
3.2 item-level attention生成
作者也用2層神經網路生成attention,根據該用戶的偏置向量 、item的隱向量 、item的貢獻向量 以及item的個性化內容向量 來得到attention 。
4、實驗
4.1 數據集
Pinterest:image推薦數據集
Vine:micro-video推薦數據集
描述如下:
4.2 評價方法
leave-one-out 評價:對於每個用戶,選出其最近交互的一個物品作為測試集,其餘為訓練集。作者把推薦問題看到排序問題。採用HR和NDCG評級方法。
4.3 base model
UCF:基於user的協同過濾
ItemKNN:基於item的協同過濾
BPR:採用pairwise的rank loss優化隱向量模型
SVD++:是隱向量模型和最近鄰模型的結合
CBF:基於內容的過濾,用戶的隱向量通過與它交互的item的隱向量的平均值來表示。
SVDFeature:基於特徵的協同過濾
Deep Hybrid:用CNN擬合多媒體內容特徵,之後結合矩陣分解MF
4.4 特徵提取
對於視頻的每禎和image的視覺特徵用ResNet-152提取
Image:為了得到component(代表圖片的每個區域)的特徵,採用ResNet-152得到,最後的7*7*2048的feature map可以認為是49個2048的向量,分別表示圖片的49個區域
video:component由視頻的每禎表示,每禎的特徵由ResNet-152 pool5層(平均池化)的輸出得到,作為每禎的特徵表示。
4.5 實驗結果
作者對隱向量的維度以及HR和NDCG的rank數目,還有針對每個用戶的item數目分別做了實驗分析。
上圖說明隱向量的維度越大,ACF的表現越佳相比於其它模型。同時ACF對比較稀疏的情況(每個用戶交互的item數目比較少)表現更好相比於其它模型。
此外,作者也對attention做了分析:
Table2中的AVG表示平均的attention權重,ATT表示用2層神經網路學到的attention權重
Table3中的attention type指的是item-level的attention原始是用U、V、P、X一起得到的,作者分析了去掉其中某幾個後的attention影響。可以看到component-level的attention還是比較有效果的。表現為上圖中X內容向量。
5、結論
作者比較創新的一點是加入了component的attention,使得多媒體的內容信息被考慮,豐富了attention的內容,使得推薦更加個性化。
推薦閱讀:
※好物 | 聽說在冬天,一個好杯子比男盆友還重要
※推薦信中讓人尷尬癌都犯了的錯誤,你中了幾條?
※一款輕量級瀏覽器
※有哪些表達兄妹情感的經典藝術作品?
TAG:推荐 |