用技術豢養你尊貴的耳朵 | 對話智能音樂推薦系統
請大家稍作回憶——你第一次認真地喜歡一曲音樂是什麼時候?可曾有那麼一個瞬間,你無比渴望耳畔湧來一個,讓你寒毛倒立,讓你心頭一緊的旋律?
我們熱忱地期待技術真的可以像音樂世界裡的「上帝之手」那樣,潤物細無聲得就把你需要的清風送達耳畔。
那麼,「上帝之手」是如何實現的呢?
今日S-Tech專題主創,QQ音樂智能推薦組shenyuan & andyab, 向大家揭秘,音樂推薦系統如何讀懂你的心。致尊貴的耳朵
——對話音樂智能推薦系統
1.從0認識你「1969年,阿拉斯加大雪,積雪成冰,山丘野地人家,全都沉寂在剔透的冰封世界裡。羅伯特不得不放棄了外出計劃,圍爐在家。寒冷的冬夜沒有樂曲,耳邊卻迴響聲著火車上聽到的巴赫片段。樂曲似乎比爐火更能取暖,無奈想得越用力,印象卻越不清晰。
搖頭作罷,羅伯特縮成一團迷濛睡去。
他做了個夢,夢中一切都太不真實,唯一觸手可及的一台發熒光的小型機器,和上面赫然顯示的2016。
手剛觸及一個黃綠圖標,機器卻響了。是樂曲!但卻不是他心念的《哥德堡變奏曲》。」
歡迎來到音樂推薦系統的世界。我們更常稱其為RS(QQ Music Recommendation System)。對於每一個初入音樂軟體的「羅伯特」,RS對你都是一無所知的(特別是,如果你既沒有主動搜索歌曲,也沒有主動選擇喜歡的風格)。如何從一無所知,到準確推薦?這在RS里,被稱為「冷啟動」。
最快的方法大概是:先扔給你一首歌,看看你的反應(是興奮得點紅心,還是怒切歌?)。但是「扔」的動作也很講求技巧——怎麼個「扔」法才能命中率最高?每首歌都有流派、語言、歌手等不同屬性。RS有數據顯示,聽者對各個屬性的敏感程度是不同的,敏感度排序是語言>歌手>流派。簡而言之,我們最不能忍的是聽到不喜歡的語言(比如外文歌),其次是歌手,再次才是風格流派等。
① 語言是第一推薦要素。QQ音樂用戶中90%都以聽中英文歌為主,所以最初,RS會以中英文混合推薦;聽者對不同語言會有不同偏好,產生「收藏」、「切歌」等行為,這就是RS學習的第一步;
②歌手是第二推薦要素。鎖定了語言偏好後,RS開始試探性地推薦歌手;同樣根據聽者的反饋,快速鎖定一個小範圍的歌手候選區間;
③經過前兩步,推薦範圍已經較為聚焦;聽者也累積了相當的個性化數據,破冰完成,「冷啟動」進而順利轉向常規的推薦方法。
2.小動作,大解讀
「羅伯特皺了皺眉,機器里發出的靡靡之音讓他有點煩躁。他嘗試觸碰那些圖標,音樂戛然而止。一陣手忙腳亂,又點按了好多其他圖標。直到他意識到,音樂可以受他的控制停下又繼續,或因他的不滿意而換一曲。
起初的音樂總是不盡人意,後來惱人的曲好像越來越少了?這是為什麼?」
羅伯特的每次觸碰都被RS小心地記下了。RS可以從「切歌」、「收藏」等行為中迅速讀懂聽者的偏好,從而「投其所好」,這一點在收聽「個性電台」時體現得最為明顯。這並不難理解:當你收藏《晴天》時,很可能說明你喜歡周杰倫,對此,RS後續推薦曲中出現周杰倫的幾率就會增高;當你點刪除(不再播放),會導致類似歌曲的出現幾率降低。「收藏」、「刪除」、「下載」行為反應的好惡都很鮮明(在RS中,稱為重度實時行為),對於此,「簡單粗暴」的推薦規則往往就很有效。相比之下,另一類操作包含的態度就很「曖昧」——切歌。切歌行為受到環境、心情等諸多額外因素的影響;而且切歌時機也很有深意(默默腦補3秒切和3分切)。
比如,在過往收聽中,你被RS打上了喜歡周杰倫的標籤,但今天你卻切掉了《晴天》,原因可能是多樣的(比如...今天是陰天?);僅憑這次切歌而放棄向你推薦周杰倫,效果可能南轅北轍。這時就需要RS中一套更加智能的預測機制(原理類似統計中的判別分析, Logistic回歸),將歌手、流派、切歌時機等多種影響因素綜合,去評估聽者對這首歌的真正態度。評估結果表示為一個介於0到1之間的數(1代表喜歡,0代表不喜歡),越接近1則喜歡的概率越大。
3.勾勒你的模樣
「越發熟練地點擊。羅伯特循著圖標,翻閱到軟體中的音樂分類:Pop, Light, Folk...Sad, Silent, Sweet...他發現,在這個不知藏了多少樂曲的機器中,每一首歌都被打上了坐標。
這時他也恍然意識到,為什麼聽到的曲越來越讓自己滿意:似乎在機器眼中,他也成了一個需要定位的坐標。一雙挑剔的耳、一次次點擊,代表著一種獨立、行走的音樂形態。在音樂王國里,輪廓清晰。」
描繪出你的聽歌偏好,為你推薦對應的歌,是RS最基本的推薦方法(被稱為「基於內容推薦」)。思路大致是:1.你喜歡鄉村音樂——2.《Country Road》是鄉村樂——3.向你推薦《Country Road》。
但是等等,真實的世界往往是這樣的:你除了喜歡古典樂,還喜歡英文歌,還喜歡陳奕迅;《Country Road》除了是一首鄉村樂,還是英文歌;還是一首抒情歌......這樣下來,簡單的邏輯也承載著複雜龐大的信息。這時就有賴於RS中兩張設計精細的信息表——用戶畫像和音樂畫像。用戶畫像是將聽者的聽歌行為數據抽象出來,轉化為簡潔形象的標籤。隨著你軟體使用的深入,RS會在各個標籤下不斷更新你的信息。目前QQ音樂的用戶標籤分為6維:
2.社交屬性:依託於騰訊成熟的社交生態鏈,可以挖掘出年齡,性別,職業,地區等數據;
3.場景偏好:在QQ音樂不同場景下的聽歌分析,如排行榜,歌單,本地歌曲等;
4.人群屬性:有多種群體劃分方式,比如按活躍度劃分,按流派偏好劃分等;
5.聽歌時間段:在一天中的聽歌時間分配;
6.黑名單:描述對某類歌手或歌曲的反感。
相應地,音樂畫像是在為歌曲打上各式各樣的標籤。分為六類:
1.歌手緯度:歌曲主要歌手的相關數據;
2.音頻特徵:如mfcc,pitch等音頻信號的特徵數據;
3.熱度統計:歌曲被聽,下載、收藏、分享等次數;
4.流派:如輕音樂、民謠、搖滾等;
5.情感標籤:如傷感、心痛、安靜、思念等;
6.樂器:鋼琴曲、古箏、吉他、小提琴等。 畫像如同定位了聽者和歌曲在音樂國度的「坐標」。接下來就是依照歌曲和聽者間相似的標籤,繪製出一首歌到一個聽者的「地圖」(即在用戶和歌曲間建立標籤向量)。循著地圖,讓好歌曲主動到達你「尊貴的耳朵」。
4.同好之耳,為你尋歌
「似乎應該感嘆這機器的驚人曲數和精密劃分,羅伯特想。心中卻浮起一絲懷疑。他回想起某年在廣場上經歷的感動。大雨如注,露天音樂會就要開場了。廣場上是意外的人頭濟濟。為了巴赫?真的是為了巴赫,當《聖母頌》響起,男女老少、胖瘦高矮,異口同聲唱和起來。那一瞬間,熱淚從羅伯特臉上滑落。
音樂是靈動的,它的深刻只能由同類人所共知。而眼前的機器分類如此蒼白,卻妄圖解讀其中深意?想到這裡,羅伯特不禁要嗤之以鼻。」
作為機器,RS知道自己的界限在哪裡。也因此更加明白,服務人的智慧還是來源於人。
「鄰域推薦」就深深地遵循了這一理念。它在音樂推薦中應用廣泛,以至於很多人將之與音樂推薦劃等號。這種方法的思路如下:1.小Q喜歡《Country Road》——2.你和小Q是相似用戶——3.向你推薦《Country Road》。物以類聚,人以群分。鄰域方法的精妙在於,借用了與你品味相似的聽者之耳為你挑歌。既偷偷借力了「群智」;又能彌補直接打標籤造成的簡單化處理。音樂的精妙遠不止標籤提示的那樣非黑即白,對於此,人類的感官要比機器聰明許多。
那麼,如何找到與你聽歌品味相似的用戶呢?簡而言之,取決於你們喜歡的歌曲中重疊的數量。如果重合的歌曲達到一定比例,就會被認為你們是相似的,那些他所喜歡、而你又沒聽過的歌曲,會進入你的推薦歌單。
上圖是一個極端的例子。列為聽者的姓名(A-E),行為歌曲編號(1-21)。表格中的數字代表的是「是否喜歡這首歌曲」——1代表喜歡,0代表不喜歡。
那麼上面這張矩陣圖中,小A與小B就是非常極端的兩個聽者,在21首歌中,他們的偏好完全一致,我們有理由相信小A與小B品味接近,RS會向他們推薦彼此喜愛的其他歌曲,貼合心意的可能性也更高。(實際生活中的相似度很少如此理想,相似度會通過一個百分比反應)
5.隱秘的紐帶
「沉思被一首新曲打斷。美妙得如此熟悉,羅伯特卻清楚知道自己並未聽過。
從開始到現在,他聽到了一些難忘的歌。在他原本的生活里從未觸及,甚至因為語言不通,對歌詞毫無頭緒。但感受卻是相連的。
個人的領地如此有限,但技術卻讓人乘著翅膀,在音樂的浩瀚國度里自由穿行。
他呼出一口氣,選擇不再驚奇或質疑。閉上眼,享用這一刻的美好時光。」RS搭建了音樂同好的聯繫,也串起了相似歌曲間的聯繫(原理很簡單,只要在鄰域方法的矩陣中,比較縱向的兩列數據——即兩首歌——相似度即可)。不過,這種歌曲聯繫的建立,依賴於有足夠多的聽者同時聽過這兩首歌。
還有一些聯繫更為隱秘。它們並未在聽者的使用數據中產生直接關聯,但卻有著內在相似性——假設從現有聽者的喜好中,發現中文R&B和英文R&B有直接相似性(RS稱為一階聯繫),英文和法文R&B也有直接相似性,但中文和法文R&B卻沒有(原因可能是...中國人都不懂法文?)這時,通過英文R&B作為中間橋樑,可以發現,中文和法文R&B是有間接相似性的(稱為二階聯繫),這就是隱因子特徵挖掘方法(工程中常使用的兩種挖掘模型為:基於矩陣分解的隱因子模型(LFM)和基於能量函數的神經網路模型(RBM))。RS會通過挖掘這些中間紐帶,為聽者儘可能拓展推薦領域的疆土。
初入音樂之「坑」的人或許都有那麼一段獨自狂歡的時光,守著心頭之好,感嘆地球上有那麼一種聲音,與自己如此合拍。
隨著互聯網帶來的音樂資源肆溢,網路聽者的心中也泛起了迷茫——就好像在颱風將至的海邊,海岸上空無一人,看到海浪接連不斷地湧來,就像奔騰的馬群,騎在馬背上,卻永遠看不到大海的全貌。
熱愛音樂的人,無論何時何地,都無比珍惜自己的耳朵。當技術發展到今天,他們熱忱地企盼,茫茫大海中能迎來自己的Music. Right。 好在,「智能推薦」已經到來,而且在不斷成長著:)
音樂之洋,你可以縱身一躍,如你所願。
(文內羅伯特的故事純屬虛構,與原著無關,感謝帶給我們靈感的《北方人的巴赫》一書)原文 | 李深遠(QQ音樂個性化團隊負責人)、黃安埠 (QQ音樂個性化推薦系統演算法負責人)改寫 | 陸詩雨、余潔(騰訊研究院研究研究員)【往期回顧】
「音樂與互聯網」系列研究:① 情緒篇:《音樂是秘密,你已經暴露了自己》
推薦閱讀:
※如何查看chrome的版本?
※8000元的吃雞配置有哪些?
※余额宝里的钱被莫名其妙的转走,该找谁?
※如何看待電腦和手機平台硬體性能過剩問題?