為什麼只有豆瓣和亞馬遜的推薦演算法可以做的這麼好?

謝謝答案區大家的解答!

想實現每次上網5分鐘就可以完成購買(因為推薦都特別准!),每天早上不刷幾下「猜你喜歡」就不想起床的生活是我吐槽的原動力!

另外還有一些不明白的地方,放在更新里了!

下面是原來的問題:

---------------------------------------------------------------

從消費者的角度出發,我覺得國內的網站的推薦,只有豆瓣的「猜你喜歡」和亞馬遜的"推薦",才有點用,可以得到很多信息。(答案里有人推薦網易雲音樂,據說做的也很棒)

那麼實現對消費者準確的推薦很難嗎?為什麼大多數網站都做不到呢?

即使像阿里巴巴這樣的首富!

舉個栗子,

我在亞馬遜上買了一瓶雅詩蘭黛3折的眼霜(熟齡肌膚適用,且不油膩)。

他會推薦給我倩碧5折無油黃油(適合油性肌膚)、伊麗莎白雅頓精華(適合熟齡肌膚)、居家臉部按摩神器1折39元(款式清新小資)。

再舉個栗子,

我在某寶上買了一隻美的迷你吸塵器99元。

某寶立刻推薦給我飛利浦迷你吸塵器99元。美的XX型號迷你吸塵器139元。粉色蝴蝶蘿莉裙32元

備註:我在這幾個網站上都是資深用戶。某寶上消費金額應該超過5萬,而且多是小件,時間超過7年。有足夠信息讓他們計算(算計)我。

答案區同學的補充

"比如我在上面買了個滑鼠,接下來它就一直給我推薦滑鼠,連鍵盤都不知道推薦。"

困惑了好幾年了!希望大神們能幫我解惑! 謝謝

--------------------------------------------------------------------------------------------------------------------

補充說明:

根據不同網站給我的推薦,我猜測他們的推薦邏輯是:

亞馬遜:對用戶進行了標籤細分。我被做了「喜歡折扣」,「外國品牌」,「女性用品購買者」,「年紀為中青年」,「油性肌膚」這樣的標籤。很切合我實際。推薦的我也很喜歡。

豆瓣:根據我喜歡的物品,分析和我一樣喜歡他們的人還喜歡了哪些。並進行推薦。其中可能還包括類別的劃分。準確且常常有驚喜。

淘寶:1、根據購買和瀏覽行為推薦最接近的。2、推薦淘寶上最熱賣的。我覺得這是非常糟糕的兩個策略。

-----------------------------------------------------------------------------------------------------------------

6月7日,更新疑惑

1、豆瓣的標籤功能是否對他們的準確推薦起到非常大的幫助?

因為這相當於有很多人在不斷的幫他們做分類整理。比如我經常在豆瓣上搜索一些奇怪的標籤,用來找我特定口味的喜好。如果正常的運營人員我覺得肯定沒這個經歷或者奇葩的口味來做這樣的標籤的。

2、關於標籤和分類。我會覺得這裡面有些工作可能屬於市場分析或者消費者心理分析的工作。而不完全是演算法的問題。那麼你們工作中,會有相關的人員協助你們工作嘛?比如對不同商品進行回購率的預估。(比如:食品,可以在買後一周內立即再次推薦。化妝品:3-9個月。家電類:1-3年等)或者你個用戶買了一本黑格爾之後,究竟應該給他歸類為NEEK,還是裝逼,還是小資情調……以此決定推薦下次給他推薦什麼)這部分工作量也不小啊。是不是需要進行大量的相關計算啊?

3、你們的工作中是:用戶A買了ABC,因此推薦買了ABC的人還買了什麼。還是用戶A買的ABC商品隸屬於什麼類目,具有什麼特性(價位、性別等)。然後推薦買了這些類目 (特性)的人還買了什麼?

外行人,但是好奇心爆棚。亂說的地方,還請不要見怪!

-----------------------------------------------------------------------------------------------------------------

6月5日,再次更新

大家關注過今日頭條么?他們是立志要做個性化的新聞客戶端的。口號:你關注的才是頭條。

可是後來也流產了。除了當時設計到的一些版權糾紛以外。我覺得他們的「標籤」功能始終非常不完善。不能實現他們宣稱的目標。

所以,準確的推薦,真的很難嗎?是技術上無法攻克的難關?

-------------------------------------------

6月4日,更新

為什麼我覺得淘寶的推薦體驗不好

1、因為客戶一旦購買完成商品A後,很少會短期內購買同樣的商品。

2、最後推薦出來的商品基本都是本類別最熱賣的,失去了推薦的含義。就像你在豆瓣上看了《動物莊園》。這時豆瓣推薦了《1984》、哈耶克給你,你就覺得很欣喜。我通過這種方式發現了很多適合我自己口味的好書好電影。可如果無論你喜歡了什麼書和電影,它推薦給你的都是TOP250電影和TOP250好書推薦。WTF...

ps,我不否認在瀏覽頁面放個「瀏覽了這些的人也瀏覽了……」的確有幫助作用啦。可是淘寶那麼多推薦頁面,比如個人主頁上,通通都是「「瀏覽了這些的人也瀏覽了……」」真的好么?


已有的回答我覺得都沒說到點上。

豆瓣和amazon,包括Netflix,都是推薦演算法里做得較好的。

他們做得好,不是因為人牛逼,阿里百度有很多牛逼的人,也不是他們的產品有何特別之處,而是因為:

他們從公司創立之初就有了數據化、程序化、自動化運營一切的思維模式。

從《網飛傳奇》所介紹的Netflix發展史來看,在他們作為芝麻公司時和當時視頻租賃巨頭Blockbuster對抗時就引進了數學天才做演算法,做數據化推廣,CEO 在度假時還在研究協同過濾,要知道他們CEO 可不是技術出身,公司在理念就贏了。

去年去聽了一次Amazon技術峰會,他們的理念也是「量化一切」。

豆瓣,不用說了,技術驅動的公司,阿北,阿穩,王守崑,這些都是技術牛,一定會把豆瓣的推薦做好的。

反觀國內,人工干預痕迹太嚴重了, 尤其是重運營的某里,一直主打爆款,主打大促,怎麼去個性化啊。那為什麼新掌門一上任,淘寶手機端的推薦就做好了?我不信是某里這時引入了大牛,我也不信是突然就設計了什麼新演算法,我信的是:理念變了。

最後客觀地說一句,光推薦演算法好有什麼用呢?如果你曲庫不夠大,音質不夠好,交互不夠順暢,照樣起不來的。這些是相輔相成的,推薦演算法是放大器,是科學的流量放大器,商業價值放大器,基數一定要夠大。


作為淘寶的推薦演算法工程師,來說幾句,希望能解答一些題主的疑惑。知乎上有太多熟人,還是先匿了。

1. 淘寶的推薦是在不斷進步的,題主說的現象幾年前更為嚴重,你買了什麼就給你推薦一模一樣的,但現在情況是在改觀的,尤其是最近一年。

2. 淘寶的場景眾多,以手機淘寶app為例,首頁有猜你喜歡,購買付款之後有推薦,逛店鋪有推薦…這些場景少說也有幾十個,這與豆瓣亞馬遜都是不同的。這些場景之間並不能用同一份數據,也不是同一個人做的(甚至不是同一個團隊做的)。這有什麼問題呢?一個直接的問題就是資源。由於這些場景都是不同的,因此推薦演算法所需要的計算資源存儲資源也是不可復用的。阿里雖然有錢,但也不能為每個場景都建立足夠全量計算的資源,於是演算法就會做簡化。

3. 到去年年初的時候,很多場景的推薦甚至都沒有個性化演算法在裡面。去年大老闆提出千人千面,這才逐步在各個場景開始用上個性化推薦的演算法(所以我們團隊的活兒越來越多了),在此之前淘寶上各個場景或許七成都是沒有個性化的(所以題主會覺得都是熱門)。可以這麼說,淘寶的推薦真正開始像豆瓣亞馬遜那樣有演算法介入,給每個人推薦適合他的東西,也就這一兩年的事情。

4. 推薦演算法的目標是什麼?從現實的角度,很簡單,就是點擊率,或者轉化率。我推薦什麼用戶才會多點多買呢?也許題主覺得那些搭配啊風格啊是很好的,但從普羅大眾剁手黨來說,並不會買賬。我們也做過實驗,實際數據表明,很多場景里用戶剛看了什麼買了什麼,你就推薦個類似的,這是點擊率最高的方式。題主是不是很詫異?我也很無奈,淘寶用戶畢竟不是豆瓣用戶,題主這樣的用戶在淘寶上是絕對的少數。

5. 題主提到的搭配推薦,這個事情我們團隊正在做,不久之後會成熟完善。即使現在已經有個性化演算法的場景,比如猜你喜歡,我們也在持續地改進演算法中,題主可以體會一下。

6. 有人說網易雲音樂,確實他有很多設計可以更容易讓用戶暴露出自己的喜好,這是產品設計上的先天優勢。這一塊,我們團隊幾個月前開始支持類似的產品天天動聽的推薦,現在第一版本已經上線,題主不妨感受一下。我自己的感受並不差。

7. 當然,有時候推薦結果之所以是這樣而不是那樣,是因為演算法要迎合老闆的口味。這就不多說了。

淘寶推薦還很年輕,以後會越來越好。


一派胡言,一點都不難,同類異類推薦啥的對於淘寶不算是什麼難事,至於為什麼給你這麼多這麼多的問題,那我估計可以從政治和技術給你扯那麼幾頁了。手機寫幾行,後面可能補一補:)

1.用戶意圖。推薦最重要的是意圖分析,用戶的狀態決定著用戶會想看什麼,也影響著我們給用戶推什麼,本著客戶第一(:)),在絕大部分購前場景下,我們要給用戶推用戶最可能看的東西,比如猜你喜歡,店內推薦等(當然店內也是有搭配推薦),在付款完成後,也是有搭配推薦等

2.淘寶推薦大局勢因素。:)

3.淘寶大局勢因素。:)

-----------20150607

趁著擼完串,有點喝多,做了幾頁PPT,要是有被請喝茶,就刪之,不清楚的可以再問


Amazon好像是根據協同過濾推薦的,並沒有給用戶加標籤。協調過濾的效果基本取決於數據量大小,所以小網站很難達到好的效果。至於淘寶,我也不知道怎麼回事


看企業有多看重技術驅動,如果用心積累數據,然後做好特徵工程,最終呈現的效果一定差不了。


之前做過商品、應用一類的推薦,也做過廣告類的推薦,我來說下我對這個問題的理解吧。

其實,我認為這種問題還是要分場景和目標來討論,不同的場景,不同的目標推薦的策略也不同,當然效果也迥異。

舉幾個例子來說明一下:

豆瓣fm:這個場景相對簡單,並且也是以提高用戶留存和使用時長為最終目標的。那麼這種情況下的推薦演算法會更單純,我會想盡一切辦法去思考用戶在思考的東西,去盡量追蹤他的興趣曲線,他的心情曲線,然後把最能表達他現在心情的歌曲推薦給他。並且策略里還會很注重推薦物品的多樣性、新穎性等等。那麼這裡單純的ctr會是一個考慮因素,但不會是決定因素。並且這不同於商品購買,可能我聽了一首歌,我還會想聽這個人的另一首歌或者跟這個歌相近的歌,但是有些商品,一旦產生購買了,對同類物品的需求短時間內就不存在了。不過,這也不是說我們就不能再做這種推薦,還是那句話,要分場景分目標去看待,這個後面講廣告推薦時候會講到。而且豆瓣還有一個天然的優勢,就是它的負反饋樣本比較好取得,無論是用戶點了不喜歡還是聽了幾秒鐘就切換歌曲了,這些都是很有效的負樣本。

淘寶:淘寶的推薦場景就要複雜的多,並且推薦模塊多,每個模塊的作用也不盡相同。而且最主要的一點就是,他的推薦目的沒有那麼單純,都是以最終的購買轉化為目標的,裡面還會摻雜進很多運營強推的策略。這種時候,我們就要把物品的品類細分來看了。有些物品,一旦有了購買轉化可能短時間就沒有需求了,那一般我們會把這類用戶已經買過的物品在推薦中抹去。但是並非所有物品都是這樣的,像書籍,可能我買了一本這類的書,並不代表我近期不會再去買這一類的書了。淘寶的物品品類太多太雜了,這種類目區分的事情肯定是在做,但是做到什麼程度就很難講了,出現買了皮鞋再推皮鞋的事情也不奇怪。而且有時候因為運營的原因,可能是在強推,有時候因為kpi的不同,就是要把ctr或者cvr最高的東西擺在前面,這會傷害一部分推薦的結果,讓用戶厭煩,但是從轉化來看還是OK的。這裡就要看怎麼取捨了。

廣告推薦:這是一個更複雜的領域。我們不講dsp、rtb這些,只關注推薦。推薦在廣告投放裡面越來越被重視起來。其實在廣告推薦里很有效的一個策略來恰恰就是retargeting。用戶看了什麼我就給你推什麼,甚至有時候用戶買了皮鞋我還給你推皮鞋,而且就是你買的那個。有人覺得這是一種無效的推薦,從單次轉化來說可能是這樣的,但是其實用戶會有一個購買衰減期,有時候他買了並不代表他就不會再點了,而只要他點了,這就夠了。一方面這產生了點擊轉化,另一方面這也提高了廣告主網站的分發或者說是pv。我把人帶來了總比沒有帶來的強,因為這可能產生二次轉化。相比較推一個全新的東西來說,retargeting的策略在很多時候是有效的。


亞馬遜我用的不多,我只說一下淘寶和豆瓣網雲。要討論淘寶為什麼做不好推薦,先從成功的推薦系統說起

1.豆瓣和網易雲音樂都有一個列表的功能,豆
瓣里叫豆列,網雲里叫歌單。大量的用戶把相似的音樂,豆瓣頁面放置到一個列表裡。一個豆列/歌單的關注度,說明了這個列表的成功度。一個列表的成功度,同
時也說明了列表中不同元素之間的相關性。豆瓣/網雲中大量用戶正在不斷地創建,分享,使用豆列和歌單。這些數據足夠用來產生推薦。

說的簡單點:

你在網雲上聽了一首音樂,然後網雲分析這首音樂,發現有一千個歌單中包含了這首音樂,然而,這一千個歌單中有九百個歌單包含了另幾首,所以,網雲便把這幾首音樂推薦給了你。

這一千個歌單中絕大多數都是冷門的,但總有幾個歌單十分成功,關注用戶量大,聽的次數多。所以還有一個權重:關注度越大,創建者的關注度越大,歌曲聽的次數越多,這個歌單的權重越大。

你會發現,幾乎所有成功推薦系統都使用了列表:

網雲用的是歌單,

豆瓣FM使用的是音樂人創建的赫茲,

豆瓣電影、圖書使用的是豆列。

但豆列只是豆瓣app之後豆瓣才開始猛推的。在此之前,豆瓣的推薦數據從哪來?

2.興趣。豆瓣是一個主打興趣的社區。一部電影,你給了5分。豆瓣發現有另外的一千人也給它5分,這一千人的其他高分推薦便可以哪來參考。反過來,你給了一部電影很低的分,其他同樣給它低分的用戶,他們推薦的電影就可以供你參考。

於是,你所有給高分的電影,組成了一個列表,列表名就是你,推薦問題又能用1來解答。

絕大多數社區推薦都只是這樣子就可以了。


而有一個問題:一個人的興趣可能是廣泛的,可能同時喜歡動畫電影,又喜歡好萊塢。把這些電影放在一個列表裡並不適合。所以豆瓣這幾年開始猛推豆列,網雲才
會成功,他們只做了一件事,讓你主動的把自己不同的興趣分開到不同列表裡。一個小小的舉動能把推薦演算法的精度提高若干數量級。

//更新:刪掉了關於評論淘寶推薦演算法的內容。作為一個非內部人員,根據演算法結果反推黑箱內部邏輯,只能使用主觀推測。所以如果大家認為我的推測與事實不符,那我乾脆刪掉好了。


其實這個不是技術上的問題,而是數據取樣的問題。推薦演算法雖然繁雜,但是基本思想都是一致的,就是咱倆喜好差不多,把你買過的或者喜歡的東西推薦給我;要不就是這倆商品有一定關係,買過一個以後就給你推薦另一個。而這個問題便在於這倆商品是什麼關係,淘寶的是「看了這個商品的人還看了...」,於是把你所買商品的同類推薦給你;而Amazon等則是「喜歡這個商品的人也買了...」,於是你得到的推薦就是功能相關的或者配套的東西。總之這就是數據取樣策略的不同導致了推薦結果的不同,至於為什麼淘寶不覺得它的策略有問題,那我就解釋不了了。


豆瓣的演算法一點都不準。人工干預的痕迹非常重。亞馬遜才真靠譜。


哈哈,沒錯。我也發現了,比如我在上面買了個滑鼠,接下來它就一直給我推薦滑鼠,連鍵盤都不知道推薦。估計他們就真的按最相似商品給我推薦了,建議他們用點強制規則,比如某些使用周期比較長的商品,該用戶買過後一段時間內不再推薦同類商品


推薦其實可以分為

1實時的推薦,就是淘寶內種,恨不得你上一秒搜過電飯煲下一秒各種品類的電飯煲都進來了這種

2純粹的猜你喜歡,這樣就是分品類分是否成單了,比如說電飯煲成單了那就不該再給你推薦

所以題主希望的推薦,更多的是第二種,其實也是推薦系統的初衷,就是把長尾的80%商品推薦給指定的會有興趣的人,BUT,這不能成為電商的KPI 啊,電商的KPI肯定是成單成單成單!雖然你喜歡的你很可能買,但是不如你急需的來的直接,電商的目的是最終想讓你花錢的,畢竟你評價電商最基本的也是便宜不便宜,而不是這個電商有沒有給我推薦我喜歡的東西(你可能轉手就到對手平台上搜比價了,費這力何必呢。

所以內容型的網站就會在這個方向上更「有情懷」一些,因為他們就是「單純地」希望你喜歡這個平台的內容,在這個平台多呆一會兒再多呆一會兒,我總給你推薦別的平台上不給你推的小東西,你留在我這好不好。

電商就更簡單粗暴一些,希望你多買多買,我這價低質優,差不多你就買吧,一電飯鍋你墨跡啥啊,差不多都差不多。


目前淘寶應該是採用推薦引擎組而非單種推薦演算法吧?比如說豆瓣的物品數相對用戶量來說是較小的,因此採用基於Item的協同過濾應該會效果不錯,實際上豆瓣也的確主要用的是這個演算法;但是對於淘寶來說用戶量和物品量都很龐大,單用一種演算法應該達不到什麼效果。


你用了網易雲音樂之後就知道了。


個人觀點,精準推薦本身和推薦的topic有關,用戶興趣穩定的topic往往通過較長時間的數據積累可以做到比較好的效果,但是像通用電商非常難做到,用戶興趣遷移周期很短,具體來講,新聞,電影,書籍,本身興趣都很穩定,包括電商中的超市類型的大類目都效果都不錯,但是通用電商就很難,優化一般採用逐個類目建模,這樣可能會對轉化有提高


因為豆瓣的推薦偏小清新,這是真的,數據都經過運營整理的。


忍不住吐一句槽,題主有點想的太多,讀的太少。
有這空功夫瞎想,不如自己去搜亞馬遜和雅虎當年發的那幾篇協同過濾和奇異分解的論文,這都是當年的開山之作,有本科數學基礎相信都能看懂。還有題問的「只有」亞馬遜和豆瓣,這讓Netflix等企業情何以堪。

------------------------

另外推薦一個答案

網易雲音樂的歌單推薦演算法是怎樣的? - 產品經理

裡面 沙克 的回答


曾經聽一個講座說的,這種類似的推薦演算法,可以對用戶的數據進行分類,分類越細,可挖掘的數據越豐富,包括現在好多圖片搜索的智能學習好像也是這樣,給每個數據打標籤,對其進行特徵分類,然後相似推薦


推薦閱讀:

YouTube 的視頻推薦演算法是怎樣的?
推薦演算法有哪些?
OCR文字識別用的是什麼演算法?
怎麼描述一個人的興趣呢,如何數學建模?

TAG:淘寶網 | 數據挖掘 | 豆瓣 | 推薦演算法 | 豆瓣演算法 |