如何量化評估推薦系統的推薦結果?

可以以豆瓣電台舉例,單純的pvuv離效果太遠...如果沒有通用的評估方法,舉個案的例子也行


我覺得可以分成兩種情況:

第一種是線上實際的推薦系統:

這種推薦演算法的評估方式必須根據產品的定位以及業務的場景。

電商類推薦系統:最終的目的是提高銷售額,那麼最好的評估方式就是看推薦帶來的銷售額的佔比。

樓主所說的uv pv 或者 點擊率等受UI,產品本身,推廣等諸多因素影響,參考價值不大。

電影圖書音樂類推薦系統:最終目的是幫助用戶更好的發現內容,那麼可以評估方式可以是用戶觀看電影聽歌等來自推薦系統的佔比。

當然這類還有一些其他的方式,比如滿意度啊,因為一般可能都會有打分系統或者喜歡不喜歡,這些也可以作為用戶滿意度的考量。

新聞內容消息推送類:這類包括社交網路推進的信息流,新聞推薦的消息等。這種瀏覽型的推薦在評估上確實比較模糊,點擊率,用戶瀏覽時長等都不是特別能說明推薦系統的效率,決定因素太多了。而且也不方便收集用戶的正負反饋,是否喜歡。

當然了,在產品UI等比較定型了的情況下,可以通過點擊率,分享率,人均點擊,瀏覽時長等作為參考。

第二種屬於線下實驗

這種比較好衡量,一般都會有test都有標準值, 一般的統計方法:RMSE,相關係數等來衡量。

這種主要多用於線下測試或者學術研究。

總之,評估方式主要還是根據不同產品和業務的目標去考量。


現在學術上比較常用的都是RMSE之類的評價標準,個人覺得這些標準是學術界無賴的選擇,因為實驗的數據和環境只能夠做到這一步。


推薦系統還是看目的是如何的,從用戶角度講是為了更好的理解用戶,減少用戶查找內容的時間和次數,從產品本身角度講,是增加單位面積單位時間內的點擊數或者說內容有效。

我在做推薦系統的時候從業務角度的衡量:

1、是衡量點擊和打開率,這說明用戶是否對內容感興趣(當然,這與UI視覺有很大關係,只能說在UI已定的情況下查看)。

2、通過推薦系統替代用戶主動搜索或者主動瀏覽的次數,可以通過橫向與使用其他產品對比較,比如使用推薦系統提供內容的用戶搜索次數和點擊瀏覽目錄次數明顯下降。

3、推薦系統的滿意度口碑,刨除因為頁面位置效果等因素,衡量推薦系統一個重要的就是滿意度的口碑問題,這個可以通過單個用戶是否有重複使用的行為,曲線是否是一直上升的來衡量,如果一直有新用戶訪問,但一直沒有老用戶重複使用,就還是滿意度有問題。


1,A/B Test是最關鍵也是最重要的評估推薦結果的方法;

2,用戶要隨機分成數量相同的組,可以是兩組或更多組;

3,每個組在測試期間,使用不同的演算法;

4,評估推薦演算法效果的時候,看的是我們用戶行為的改變:豆瓣看的是有沒有更多的人收聽,更多的人點了紅心,電子商務看的是有沒有更多的人購買商品,還有就是,是不是更多的人使用了你們日以繼夜,嘔心瀝血打造的推薦產品。


現下感覺也就Online Bucket Test令人信服一些,指標上可以多統計一些提供給人工考量,比如類似接受率、拒絕率等。離線實驗的話沒辦法,常用的指標有推薦結果列表TopN接受率、RMSE等。


舶來品:最終檢測訂單才是王道,隨機抵扣卡,這麼用……這麼用……一舉三得。


把評估的部分放給用戶來做不是更真實!


現實中要和具體業務結合是肯定的。技術層面不妨看看《Recommender Systems Handbook》第 8 章: Evaluating Recommendation Systems,從實驗設計和常見指標兩個角度作了相對全面的總結。


我現在在做一個推薦系統的比較,我使用了準確率與召回率曲線與坐標軸圍成的面積衡量該推薦系統能力的強弱.


(1)轉化率

(2)推薦虛擬物品使用平均時長(比如說推薦歌曲),總使用時長


推薦閱讀:

能否解釋一下dummy encoding和one-hot encoding的具體使用和對自由度的影響?
牛津大學的計算機系(Department of Computer Science)實力如何?
請問有沒有哪位大神使用機器學習方法進行量化策略的回測,結果怎麼樣?
理論、演算法、工具、實踐在機器學習/DM工程師的學習成長過程不同階段分別應占什麼比例?扮演什麼角色?
演算法研究屬於數學專業還是計算機專業?

TAG:機器學習 | 推薦系統 | 推薦系統實現 |