互聯網推薦系統漫談

04-30

讀書總結：項亮《推薦系統實踐》

推薦系統這個東西其實在我們的生活中無處不在，比如我早上買包子的時候，老闆就經常問我要不要來杯豆漿，這就是一種簡單的推薦。隨著互聯網的發展，把線下的這種模式搬到線上成了大勢所趨，它大大擴展了推薦系統的應用：亞馬遜的商品推薦，Facebook的好友推薦，Digg的文章推薦，豆瓣的豆瓣猜，Last.fm和豆瓣FM的音樂推薦，Gmail里的廣告......在如今互聯網信息過載的情況下，信息消費者想方便地找到自己感興趣的內容，信息生產者則想將自己的內容推送到最合適的目標用戶那兒。而推薦系統正是要充當這兩者的中介，一箭雙鵰解決這兩個難題。

推薦系統的分類

推薦系統是建立在大量有效數據之上的，背後的演算法思想有很多種，要大體分類的話可以從處理的數據入手。

1. 利用用戶行為數據

互聯網上的用戶行為千千萬萬，從簡單的網頁瀏覽到複雜的評價，下單......這其中蘊含了大量的用戶反饋信息，通過對這些行為的分析，我們便能推知用戶的興趣喜好。而這其中最基礎的就是「協同過濾演算法」。

「協同過濾演算法」也分兩種，基於用戶（UserCF）和基於物品（ItemCF）。所謂基於用戶，就是跟據用戶對物品的行為，找出興趣愛好相似的一些用戶，將其中一個用戶喜歡的東西推薦給另一個用戶。舉個例子，老張喜歡看的書有A，B，C，D；老王喜歡看的書有A，B，C，E。通過這些數據我們可以判斷老張和老王的口味略相似，於是給老張推薦E這本書，同時給老王推薦D這本書。對應的，基於物品就是先找出相似的物品。怎麼找呢？也是看用戶的喜好，如果同時喜歡兩個物品的人比較多的話，就可以認為這兩個物品相似。最後就只要給用戶推薦和他原有喜好類似的物品就成。舉例來說，我們發現喜歡看《從一到無窮大》的人大都喜歡看《什麼是數學》，那如果你剛津津有味地看完《從一到無窮大》，我們就可以立馬給你推薦《什麼是數學》。

至於什麼時候用UserCF，什麼時候用ItemCF，這都要視情況而定。一般來說，UserCF更接近於社會化推薦，適用於用戶少，物品多，時效性較強的場合，比如Digg的文章推薦；而ItemCF則更接近個性化推薦，適用於用戶多，物品少的場合，比如豆瓣的豆瓣猜，同時ItemCF還可以給出靠譜的推薦理由，例如豆瓣的「喜歡OO的人也喜歡XX」和亞馬遜的「買了XX的人也買了OO」。

協同過濾演算法也有不少缺點，最明顯的一個就是熱門物品的干擾。舉個例子，協同過濾演算法經常會導致兩個不同領域的最熱門物品之間具有較高的相似度，這樣很可能會給喜歡《演算法導論》的同學推薦《哈利波特》，顯然，這不科學！要避免這種情況就得從物品的內容數據入手了，後文提到的內容過濾演算法就是其中一種。

除了協同過濾演算法，還有隱語義模型（LFM）應用得也比較多，它基於用戶行為對物品進行自動聚類，從而將物品按照多個維度，多個粒度分門別類。然後根據用戶喜歡的物品類別進行推薦。這種基於機器學習的方法在很多指標上優於協同過濾，但性能上不太給力，一般可以先通過其他演算法得出推薦列表，再由LFM進行優化。

2. 利用用戶標籤數據

我們知道很多網站在處理物品條目的時候會通過用戶自己標註的標籤來進行分類，比如網頁書籤Delicious，博客的標籤雲，豆瓣書影音的標籤。這些標籤本身就是用戶對物品的一種聚類，以此作為推薦系統的依據還是很有效的。

關於標籤的推薦，一種是根據用戶打標籤的行為為其推薦物品，還有一種是在用戶給物品打標籤的時候為其推薦合適的標籤。

根據標籤推薦物品的基本思想就是找到用戶常用的一些標籤，然後找到具有這些標籤的熱門物品，將其推薦給用戶。這裡要注意兩個問題，一個是要保證新穎性和多樣性，可以用TF-IDF方法來降低熱門物品的權重；另一個則是需要清除某些同義重複標籤和沒有意義的標籤。

在用戶打標籤時為其推薦標籤也是相當重要的，一方面能方便用戶輸入標籤，一方面能提高標籤質量，減少冗餘。典型的應用場景就是用豆瓣標記書影音。這裡的思想就是將當前物品上最熱門的標籤和用戶自己最常用的標籤綜合在一起推薦給用戶。其實豆瓣就是這麼做的，它在用戶標記物品的時候，給用戶推薦的標籤就分為「我的標籤」和「常用標籤」兩類，而在「我的標籤」里也考慮了物品的因素。

基於標籤的推薦有很多優點，一方面可以給用戶提供比較準確的推薦理由；另一方面標籤雲的形式也提高了推薦的多樣性，給了用戶一定的自主選擇。標籤其實可以看做一種物品的內容數據，比如書的作者，出版社，類型；音樂的國別，風格，作者等等，基於這些信息的推薦可以彌補上述基於用戶行為推薦的一些弱點。

3. 利用上下文信息

此處所謂的上下文，是指用戶所處的時間，地點，心情等。這些因素對於推薦也是至關重要的，比如聽歌的心情，商品的季節性等等。

這裡主要以時間為例說說，在很多新聞資訊類網站中，時效性是很重要的一點，你要推薦一篇一年前的新聞給用戶，估計會被罵死。在這種推薦中就需要加入時間衰減因子，對於越久之前的物品，賦予越小的權重。同樣的思想也可以用在基於用戶行為的推薦中，這裡有很多可以優化的地方。對於ItemCF來說，同一用戶在間隔很短的時間內喜歡的不同物品可以給予更高的相似度，而在找相似物品時也可以著重考慮用戶最近喜歡的物品；對於UserCF，如果兩個用戶同時喜歡了相同的物品，那麼可以給予這兩個用戶更高的相似度，而在推薦物品時，也可著重推薦口味相近的用戶最近喜歡的物品。我們可以給相似度和用戶的行為賦予一定權重，時間間隔越久權重越低，經過這種改進的「協同過濾演算法」往往能得到用戶更滿意的結果。

類似的，在LBS成為應用標配的今天，可以根據物品與用戶的距離賦予相應的權重，再綜合其他因素得到靠譜的地點推薦。

4. 利用社交網路數據

如今以Facebook，Twitter為首的社交網路大行其道，而其中的海量數據也是一大寶庫。實驗證明，由於信任的作用，來自好友的推薦往往能獲取更高的點擊率，鑒於此，亞馬遜就利用了Facebook的信息給用戶推薦好友喜歡的商品。此種推薦類似於UserCF，只是尋找用戶之間的關係時除了興趣相似度以外還得考慮熟悉度（如共同好友個數），這樣一來，你的閨蜜們和基友們喜歡的物品很可能就會被推薦給你。

在社交網路內部也有許多推薦演算法的應用。其中最重要的當屬好友推薦，可依據的數據有很多：人口統計學屬性（例如人人的找同學），共同興趣（如Twitter中轉發的信息），好友關係（共同好友數量，N度人脈）。另外還有信息流（Timeline）推薦，這其中以Facebook的EdgeRank為代表，大致思想就是：如果一個會話（Feed）被你熟悉的好友最近產生過重要的行為，它在信息流的排序中就會有比較高的權重。另外，基於社交網路興趣圖譜和社會圖譜的精準廣告投放也是推薦系統的關鍵應用，它決定著社交網站的變現能力。

演算法vs人

有很多人懷疑推薦系統是否會讓一個人關注的東西越來越局限，但看完這些你會覺得並非如此，多樣性，新穎性和驚喜度也都是考察推薦系統的要素。而至於演算法和人究竟哪個更重要的爭論，我很贊同唐茶創始人李如一的一個觀點：

在技術社群的討論里，大家默認覺得讓推薦演算法變得更聰明、讓軟體變得更「智能」一定是好事。但人不能那麼懶的。連「發現自己可能感興趣的內容」這件事都要交給機器做嗎？不要覺得我是Luddite。真正的技術主義者永遠會把人放到第一位。

我想補充的是，演算法雖然不能解決全部問題，但演算法可以變得更人性化。套用某人「網路就是社會」的論斷，其實演算法和人之間早已不那麼涇渭分明了。

互聯網推薦系統漫談

推薦系統的評判標準

推薦系統的分類

推薦系統的冷啟動問題

演算法vs人