推薦系統如何解決對於使用頻率較低的產品的用戶特徵冷啟動的問題?

現在的系統設計方案是 就是 基於 item和user的cf, 給用戶和產品打上相同的tag, 用戶的每一次操作都同時影響用戶和產品的特徵向量, 通過內積計算相似度, svd分解聚類, 在用戶特徵數據和產品特徵數據充分的前提下, 這種推薦演算法是嚴密的。

一般的, 這種產品 在 使用頻率較高的情況下, 輔助的使用一些 註冊信息 和 人工推薦的方法, 可以很快的 解決 冷啟動的問題, 獲得一個比較準確的初始值。

但是 ,現在的問題是, 產品特徵向量冷啟動可以通過市面上的相關產品大數據分析做出較準確的判斷, 但是用戶特徵向量冷啟動很難, 原因是產品屬性決定了用戶對於這種產品使用頻率極低(但是用戶量大), 平均一個用戶一個月也就是一兩次。

那麼, 在這種情況下, 如何迅速建立起較準確的額用戶特徵向量的初值?不至於在最初得到非常差的推薦流失用戶。


「平均一個用戶一個月也就是一兩次。」

這種情況下,可能要考慮能否獲取用戶的在其它站的數據,比如微博登錄的用戶就抓微博信息,比如向百度騰訊搜狗360購買Cookie對應的信息

如果不能夠獲得信息,先考慮提供非個性化的推薦,就是解決item的冷啟動問題,讓每個item都有一定的曝光機會,獲得點擊或rating,將點擊率或rating較高的推薦,怎樣保證各item都有曝光機會又不影響當前效果屬於Explore Exploit範疇,一種方式是只給一部分用戶展示比較隨機的item列表用於Explore,讓他們幫你挑選好的item,當然被選中的這些用戶對Explore結果不會滿意,這些用戶的價值在於標註數據,再Exploit這部分數據對其它用戶提供好的推薦,這就要考慮對哪些用戶做取捨,我的建議是:利(放)用(棄)一部分不活躍的用戶,對剩餘的不活躍用戶提供不太個性化的熱門推薦,只對活躍用戶提供個性化的推薦,

總之,使用頻率較低的用戶,如果不能獲取額外的信息,就不要考慮給他們很好的體驗,還是考慮利(放)用(棄)他們的一部分吧


如果是APP產品的話,首先這個問題得從幾個角度去看:

第一:問題的主要原因確實是因為產品功能、體驗問題導致的話,那就先從基本的產品功能和用戶體驗抓起,當然這裡面很多是需要很多數據做支撐的,比如用戶頁面的訪問時長、訪問路徑、各類型用戶的留存等應用數據分析指標,這需要一套成熟、全面的APP應用統計分析系統來幫你完成,目前國內數據實時性、統計分析功能最全面的移動應用統計分析產品是TalkingData(北京騰雲天下科技有限公司)的APP Analyitcs產品,可以解決數據分析和統計的問題。通過應用內用戶行為數據分析的方式發現產品自身問題,這是第一步。

第二:部分用戶確實不是此產品的精準、適合用戶,當然這個如何知道呢,要通過大數據分析,需要做全方位的用戶畫像來支撐,這個分析不是單純的基於用戶在自家產品的數據分析,而是基於全網的,方法大致為:每個用戶肯定要打自己的用戶ID(用戶唯一標示符),此用戶ID肯定是唯一的,基於用戶ID做數據採集、建模、分析最終輸出用戶的畫像標籤,(如「用戶A」,喜歡三消類遊戲、三國類題材遊戲、喜歡購買奢侈品、經常使用某些類型的新聞APP、常駐城市、年齡階段、等詳細標籤);此基礎上必須同時建立自己的用戶標籤體系及數據平台;通過此種方法完成用戶畫像後,基於自己產品的特徵特性及適宜人群,做對比分析,你會發現,到底是部分用戶確實不是產品精準受眾,還是確實產品存在問題;這類方法如果沒有長期積累的企業是沒能力做這個事的。所以需要藉助第三方的MDP能力,國內最大的獨立移動大數據服務商是TalkingData,覆蓋全國近13億移動智能設備,其Mobile DMP覆蓋可用標籤近110億,長期為平安、招行、銀聯、等大型金融機構提供此類大數據解決方案,可以了解一下,希望可以幫助到你。

第三:以上兩個原因OK的情況下,那可能就是推薦系統的演算法是否精準,推薦系統推薦的內容是否使用戶感興趣的、恰好所需要的,這一點非常重要。比如一個男用戶需求一件夏季T恤,你卻推薦個棉襖給他,這顯然不合適,另外,一用戶剛買完相機,你還給他推薦相機,這也不合適,推薦不及時,但是如果給此用戶推薦相機架,那肯定是合適的;所以推薦系統的搭建也很重要。

綜上:你會發現,不管什麼狀況下,數據分析都是必須要做的事情,全方位的用戶分析、用戶洞察、用戶畫像是最基礎的,這恰巧也反饋出一個問題,移動互聯網時代,大數據的應用需求更高,基本離不開;系統推薦演算法也是建立在此基礎之上。

本人懂技術、資料庫、演算法,也不是數據分析師和運營,有不妥之處望各位指正,同時希望以上話題溝通以上希望能給題主帶來幫助!


不知道題主具體應用的場景,新聞和購物領域的推薦現在都是採用cb、cf、hot(新熱)、人工運營混推,比如今日頭條。

hot相對來說比較簡單直接,可以買穩定數據源也可以自己建設數據源,其餘部分和cb、cf一樣,唯一的差別機制是:對用戶無差別推薦。hot的數據其實對於後期避免用戶衰減都是有幫助的,畢竟只要數據質量夠高的話,相當於對大部分用戶是有意義的,例如新聞里的絕對重大事件和商品里的絕對低價,總之利用這部分可以做初始用戶數據的積累。

如果hot的數據還是不夠的話,可以嘗試花些錢搞些人工數據,如果相對簡單的話,幾十萬也夠用了。


推薦閱讀:

知乎對用戶有權重判斷嗎?如果有,是以什麼樣的機制來判斷的?
什麼叫基於模型的推薦演算法?
怎麼確定LDA的topic個數?
三百萬級用戶數據做基於用戶協同過濾演算法,相似度如何計算?
程序可以判斷用戶當前的狀態嗎?

TAG:機器學習 | 推薦系統 | 推薦演算法 |