AI——「猜你喜歡」是怎麼產生的?

在百度上搜到的圖,大致介紹了推薦演算法,這是一個很有意思的人工智慧(artificial intelligence)。想想看,計算機能夠根據大數據較為精確地了解人們的喜好、預測可能的結果,那如果輸入人類的表情、內心與行為方式給機器人,它是不是也就能像人一樣進行思考和對話呢?目前的科技已部分地完成了這種可能。下面想介紹下小編個人對推薦演算法的淺薄之見,也是一個深入學習、認真思考的開篇。

推薦演算法的Base可以分三類:用戶性質、對象性質、用戶與對象的交互過程。用網上的話來說,就是以人為本、以物為本和協同過濾(我喜歡稱之為「聯動」)。這三類演算法並不會孤立存在,一般會交錯切換或者加權共生,意思就是會綜合起來使用或者在不同場景使用不同方法。我把它們單一的存在,稱為「一度推薦」;綜合在一起時,稱為「二度推薦」。

首先說說「一度推薦」。

第一類叫基於用戶性質的推薦,可以說是用戶與用戶的交互過程,具體來說,就是根據用戶的label、喜好等個性來建立一個「同好會「,同好會也有分層,低層的只對應一個關鍵字詞(tag),高層的會對應多個tag,故每個用戶會有N個同好會,越高層聯繫越緊密。在推薦的時候,根據分層高低來進行前後排序。說白了,高層產生於低層,低層只是質變之前的量變,可以不作他用。

第二類叫基於對象性質的推薦,可以說是對象與對象的交互過程,根據對象(產品/內容)的本身相似度進行同類推薦,這就包括作用、場景、品牌、價格、目標用戶、label等tag,在用戶搜索瀏覽某些tag時,系統會據此來進行相應推薦,推薦排序可以是以加權演算法計算的相似度高低。例如,A與B-Z均有關聯,但要做推薦,那麼簡化版的計算公式為相似度=tag1*權重1+tag2*權重2+...+tagN*權重N,所得結果按高低排序。

第三類叫用戶與對象的交互過程,根據用戶顯式或隱式的行為,比如搜索、瀏覽、關注、收藏、分享、下載、評價等加強的行為,或者取關、刪除、拉黑、秒關等減弱的行為,還有關係傳遞(同類用戶也看過B、買物品A的人80%的也買了B)。其中,根據用戶不同的行為及展現出的喜好的強弱,進行權重的加減。另外我想到的用戶二次行為,也要加入到運算中,比如推薦後主動瀏覽、多次瀏覽等。除了這些用戶行為,系統也可以進行預測型行為來進一步提高推薦準確度,比如消息推送後點開鏈接、「換一組」的tag等。此類演算法有幾個經典的,例如餘弦相似度、泊松相關係數等,稍後會一一說明。

這裡有幾種最主要的推薦演算法供大家了解,因為小編數學一般,不能很深入了解,故寫得較簡略。

一,餘弦相似度和修正餘弦相似度,其中餘弦相似度的公式如下

將向量根據坐標值,繪製到向量空間中,求得他們的夾角,並得出夾角對應的餘弦值。餘弦值的範圍在[-1,1]之間,值越趨近於1,代表夾角越小,兩個向量的方向越一致,相似度也越高。

修正餘弦相似度是為了加入取關、刪除、低評價等影響相似度的用戶反向行為,也算是對餘弦相似度缺點的修正。

二,潛在因子(Latent Factor)演算法,用戶-潛在因子矩陣Q(用戶多個tag的關注喜愛度)和對象-潛在因子矩陣P(對象多個tag的關聯包含度),用矩陣表示即為:R=QP,也是值高者勝。

三,Pearson相關係數是用來衡量兩個數據集合是否在一條線上面,它用來衡量定距變數間的線性關係,公式如下

通常情況下通過以下取值範圍判斷變數的相關強度:

0.8-1.0 極強相

0.6-0.8 強相關

0.4-0.6 中等程度相關

0.2-0.4 弱相關

0.0-0.2 極弱相關或無相關

對了,還有一種我覺得特別有意思的推薦演算法,除了以上三類以外,還有一種互動型的生態圈型,也就是UGC和官網的聯動推薦。用戶可以自行建立電台、社區等個性化「文件夾」,進行用戶之間的相互推薦,這可以應用於電商、娛樂型產品。具體的方式可以是基於用戶之間的關聯,推薦同類用戶的個人「文件夾」;基於對象之間的關聯,推薦含有相同tag的個人「文件夾」,鼓勵和引導用戶貢獻內容,加強社交屬性,增強用戶歸屬感和成就感,增加用戶黏性,這種知乎就做得很好,雖然不至於主動推薦,但專為用戶開放一個入口,可以接觸到可能感興趣的他人「文件夾」。

出現的疑問一:如何避免推薦的單一化?解決方式可以是推薦用戶沒有加強或減弱行為下的tag,進行熱門推薦、換一組形式的tag。在推薦比例上,遵循推薦數量為強關聯:中等關聯:弱關聯=4:2:1,。

出現的疑問二:如何解決用戶冷啟動的問題?解決方式可以是排行榜、熱門推薦等,也可以在最初讓用戶選擇tag和拒絕部分tag,進行初步推薦,在後續用戶行為增加後再進行精細化推薦。

以上是從個人興趣點出發,僅為拙見。


推薦閱讀:

民航飛機為什麼不給乘客配備降落傘?
Facebook泄密門看起來很遠?吃瓜的你也許陷得更深
人人車起訴瓜子網虛假宣傳索賠一億元,我國法律如何定義虛假宣傳?
共享汽車首先革的,就是滴滴的命
互聯網簡訊-20180209

TAG:互聯網 | 推薦演算法 | 大數據 |