用技術豢養你尊貴的耳朵 | 對話智能音樂推薦系統

歡迎關注「S-Tech」,S-Tech即 society and technology,意在連接現代科技與社會人文,關注互聯網時代人們真實的生存狀態。

《北方人的巴赫》里有一個愛樂者的故事。羅伯特,一個常居阿拉斯加的男人。為了巴赫,不做白領而去做了管道工。就為了冬天來臨的時候,開著裝了防滑鏈的車,翻山越嶺到處看看,車上的音響正驚天動地地響著巴赫。音樂是非常特殊的藝術形式,彷彿是描述多變的心緒,比文學更抽象,比繪畫更多變。

請大家稍作回憶——你第一次認真地喜歡一曲音樂是什麼時候?可曾有那麼一個瞬間,你無比渴望耳畔湧來一個,讓你寒毛倒立,讓你心頭一緊的旋律?

我們熱忱地期待技術真的可以像音樂世界裡的「上帝之手」那樣,潤物細無聲得就把你需要的清風送達耳畔。

那麼,「上帝之手」是如何實現的呢?

今日S-Tech專題主創,QQ音樂智能推薦組shenyuan & andyab, 向大家揭秘,音樂推薦系統如何讀懂你的心

致尊貴的耳朵

——對話音樂智能推薦系統

1.從0認識你

「1969年,阿拉斯加大雪,積雪成冰,山丘野地人家,全都沉寂在剔透的冰封世界裡。

羅伯特不得不放棄了外出計劃,圍爐在家。寒冷的冬夜沒有樂曲,耳邊卻迴響聲著火車上聽到的巴赫片段。樂曲似乎比爐火更能取暖,無奈想得越用力,印象卻越不清晰。

搖頭作罷,羅伯特縮成一團迷濛睡去。

他做了個夢,夢中一切都太不真實,唯一觸手可及的一台發熒光的小型機器,和上面赫然顯示的2016。

手剛觸及一個黃綠圖標,機器卻響了。是樂曲!但卻不是他心念的《哥德堡變奏曲》。」

歡迎來到音樂推薦系統的世界。我們更常稱其為RS(QQ Music Recommendation System)。

對於每一個初入音樂軟體的「羅伯特」,RS對你都是一無所知的(特別是,如果你既沒有主動搜索歌曲,也沒有主動選擇喜歡的風格)。

如何從一無所知,到準確推薦?這在RS里,被稱為「冷啟動」。

最快的方法大概是:先扔給你一首歌,看看你的反應(是興奮得點紅心,還是怒切歌?)。但是「扔」的動作也很講求技巧——怎麼個「扔」法才能命中率最高?

每首歌都有流派、語言、歌手等不同屬性。RS有數據顯示,聽者對各個屬性的敏感程度是不同的,敏感度排序是語言>歌手>流派。簡而言之,我們最不能忍的是聽到不喜歡的語言(比如外文歌),其次是歌手,再次才是風格流派等。

語言是第一推薦要素。QQ音樂用戶中90%都以聽中英文歌為主,所以最初,RS會以中英文混合推薦;聽者對不同語言會有不同偏好,產生「收藏」、「切歌」等行為,這就是RS學習的第一步;

歌手是第二推薦要素。鎖定了語言偏好後,RS開始試探性地推薦歌手;同樣根據聽者的反饋,快速鎖定一個小範圍的歌手候選區間;

③經過前兩步,推薦範圍已經較為聚焦;聽者也累積了相當的個性化數據,破冰完成,「冷啟動」進而順利轉向常規的推薦方法。

2.小動作,大解讀

「羅伯特皺了皺眉,機器里發出的靡靡之音讓他有點煩躁。他嘗試觸碰那些圖標,音樂戛然而止。一陣手忙腳亂,又點按了好多其他圖標。

直到他意識到,音樂可以受他的控制停下又繼續,或因他的不滿意而換一曲。

起初的音樂總是不盡人意,後來惱人的曲好像越來越少了?這是為什麼?」

羅伯特的每次觸碰都被RS小心地記下了。RS可以從「切歌」、「收藏」等行為中迅速讀懂聽者的偏好,從而「投其所好」,這一點在收聽「個性電台」時體現得最為明顯。

這並不難理解:當你收藏《晴天》時,很可能說明你喜歡周杰倫,對此,RS後續推薦曲中出現周杰倫的幾率就會增高;當你點刪除(不再播放),會導致類似歌曲的出現幾率降低。

「收藏」、「刪除」、「下載」行為反應的好惡都很鮮明(在RS中,稱為重度實時行為),對於此,「簡單粗暴」的推薦規則往往就很有效。

相比之下,另一類操作包含的態度就很「曖昧」——切歌。切歌行為受到環境、心情等諸多額外因素的影響;而且切歌時機也很有深意(默默腦補3秒切和3分切)。

比如,在過往收聽中,你被RS打上了喜歡周杰倫的標籤,但今天你卻切掉了《晴天》,原因可能是多樣的(比如...今天是陰天?);僅憑這次切歌而放棄向你推薦周杰倫,效果可能南轅北轍。

這時就需要RS中一套更加智能的預測機制(原理類似統計中的判別分析, Logistic回歸),將歌手、流派、切歌時機等多種影響因素綜合,去評估聽者對這首歌的真正態度。評估結果表示為一個介於0到1之間的數(1代表喜歡,0代表不喜歡),越接近1則喜歡的概率越大。

3.勾勒你的模樣

「越發熟練地點擊。羅伯特循著圖標,翻閱到軟體中的音樂分類:Pop, Light, Folk...Sad, Silent, Sweet...

他發現,在這個不知藏了多少樂曲的機器中,每一首歌都被打上了坐標。

這時他也恍然意識到,為什麼聽到的曲越來越讓自己滿意:似乎在機器眼中,他也成了一個需要定位的坐標。

一雙挑剔的耳、一次次點擊,代表著一種獨立、行走的音樂形態。在音樂王國里,輪廓清晰。」

描繪出你的聽歌偏好,為你推薦對應的歌,是RS最基本的推薦方法(被稱為「基於內容推薦」)。思路大致是:1.你喜歡鄉村音樂——2.《Country Road》是鄉村樂——3.向你推薦《Country Road》

但是等等,真實的世界往往是這樣的:你除了喜歡古典樂,還喜歡英文歌,還喜歡陳奕迅;《Country Road》除了是一首鄉村樂,還是英文歌;還是一首抒情歌......這樣下來,簡單的邏輯也承載著複雜龐大的信息。

這時就有賴於RS中兩張設計精細的信息表——用戶畫像和音樂畫像

用戶畫像是將聽者的聽歌行為數據抽象出來,轉化為簡潔形象的標籤。隨著你軟體使用的深入,RS會在各個標籤下不斷更新你的信息。目前QQ音樂的用戶標籤分為6維:

1.內容偏好:包括歌手、語言、年代、流派偏好等;

2.社交屬性:依託於騰訊成熟的社交生態鏈,可以挖掘出年齡,性別,職業,地區等數據;

3.場景偏好:在QQ音樂不同場景下的聽歌分析,如排行榜,歌單,本地歌曲等;

4.人群屬性:有多種群體劃分方式,比如按活躍度劃分,按流派偏好劃分等;

5.聽歌時間段:在一天中的聽歌時間分配;

6.黑名單:描述對某類歌手或歌曲的反感。

相應地,音樂畫像是在為歌曲打上各式各樣的標籤。分為六類:

1.歌手緯度:歌曲主要歌手的相關數據;

2.音頻特徵:如mfcc,pitch等音頻信號的特徵數據;

3.熱度統計:歌曲被聽,下載、收藏、分享等次數;

4.流派:如輕音樂、民謠、搖滾等;

5.情感標籤:如傷感、心痛、安靜、思念等;

6.樂器:鋼琴曲、古箏、吉他、小提琴等。 畫像如同定位了聽者和歌曲在音樂國度的「坐標」。接下來就是依照歌曲和聽者間相似的標籤,繪製出一首歌到一個聽者的「地圖」(即在用戶和歌曲間建立標籤向量)。循著地圖,讓好歌曲主動到達你「尊貴的耳朵」

4.同好之耳,為你尋歌

「似乎應該感嘆這機器的驚人曲數和精密劃分,羅伯特想。心中卻浮起一絲懷疑。

他回想起某年在廣場上經歷的感動。

大雨如注,露天音樂會就要開場了。廣場上是意外的人頭濟濟。為了巴赫?真的是為了巴赫,當《聖母頌》響起,男女老少、胖瘦高矮,異口同聲唱和起來。那一瞬間,熱淚從羅伯特臉上滑落。

音樂是靈動的,它的深刻只能由同類人所共知。而眼前的機器分類如此蒼白,卻妄圖解讀其中深意?想到這裡,羅伯特不禁要嗤之以鼻。」

作為機器,RS知道自己的界限在哪裡。也因此更加明白,服務人的智慧還是來源於人

鄰域推薦」就深深地遵循了這一理念。它在音樂推薦中應用廣泛,以至於很多人將之與音樂推薦劃等號。這種方法的思路如下:1.小Q喜歡《Country Road》——2.你和小Q是相似用戶——3.向你推薦《Country Road》。

物以類聚,人以群分。鄰域方法的精妙在於,借用了與你品味相似的聽者之耳為你挑歌。既偷偷借力了「群智」;又能彌補直接打標籤造成的簡單化處理。音樂的精妙遠不止標籤提示的那樣非黑即白,對於此,人類的感官要比機器聰明許多。

那麼,如何找到與你聽歌品味相似的用戶呢?簡而言之,取決於你們喜歡的歌曲中重疊的數量。如果重合的歌曲達到一定比例,就會被認為你們是相似的,那些他所喜歡、而你又沒聽過的歌曲,會進入你的推薦歌單。

上圖是一個極端的例子。列為聽者的姓名(A-E),行為歌曲編號(1-21)。表格中的數字代表的是「是否喜歡這首歌曲」——1代表喜歡,0代表不喜歡。

那麼上面這張矩陣圖中,小A與小B就是非常極端的兩個聽者,在21首歌中,他們的偏好完全一致,我們有理由相信小A與小B品味接近,RS會向他們推薦彼此喜愛的其他歌曲,貼合心意的可能性也更高。(實際生活中的相似度很少如此理想,相似度會通過一個百分比反應)

5.隱秘的紐帶

「沉思被一首新曲打斷。美妙得如此熟悉,羅伯特卻清楚知道自己並未聽過。

從開始到現在,他聽到了一些難忘的歌。在他原本的生活里從未觸及,甚至因為語言不通,對歌詞毫無頭緒。但感受卻是相連的。

個人的領地如此有限,但技術卻讓人乘著翅膀,在音樂的浩瀚國度里自由穿行。

他呼出一口氣,選擇不再驚奇或質疑。閉上眼,享用這一刻的美好時光。」

RS搭建了音樂同好的聯繫,也串起了相似歌曲間的聯繫(原理很簡單,只要在鄰域方法的矩陣中,比較縱向的兩列數據——即兩首歌——相似度即可)。不過,這種歌曲聯繫的建立,依賴於有足夠多的聽者同時聽過這兩首歌。

還有一些聯繫更為隱秘。它們並未在聽者的使用數據中產生直接關聯,但卻有著內在相似性——假設從現有聽者的喜好中,發現中文R&B和英文R&B有直接相似性(RS稱為一階聯繫),英文和法文R&B也有直接相似性,但中文和法文R&B卻沒有(原因可能是...中國人都不懂法文?)

這時,通過英文R&B作為中間橋樑,可以發現,中文和法文R&B是有間接相似性的(稱為二階聯繫),這就是隱因子特徵挖掘方法(工程中常使用的兩種挖掘模型為:基於矩陣分解的隱因子模型(LFM)和基於能量函數的神經網路模型(RBM))。

RS會通過挖掘這些中間紐帶,為聽者儘可能拓展推薦領域的疆土。

初入音樂之「坑」的人或許都有那麼一段獨自狂歡的時光,守著心頭之好,感嘆地球上有那麼一種聲音,與自己如此合拍。

隨著互聯網帶來的音樂資源肆溢,網路聽者的心中也泛起了迷茫——就好像在颱風將至的海邊,海岸上空無一人,看到海浪接連不斷地湧來,就像奔騰的馬群,騎在馬背上,卻永遠看不到大海的全貌

熱愛音樂的人,無論何時何地,都無比珍惜自己的耳朵。當技術發展到今天,他們熱忱地企盼,茫茫大海中能迎來自己的Music. Right。 好在,「智能推薦」已經到來,而且在不斷成長著:)

音樂之洋,你可以縱身一躍,如你所願

(文內羅伯特的故事純屬虛構,與原著無關,感謝帶給我們靈感的《北方人的巴赫》一書)

原文 | 李深遠(QQ音樂個性化團隊負責人)、黃安埠 (QQ音樂個性化推薦系統演算法負責人)改寫 | 陸詩雨、余潔(騰訊研究院研究研究員)

【往期回顧】

「音樂與互聯網」系列研究:

① 情緒篇:《音樂是秘密,你已經暴露了自己》


推薦閱讀:

如何查看chrome的版本?
8000元的吃雞配置有哪些?
余额宝里的钱被莫名其妙的转走,该找谁?
如何看待電腦和手機平台硬體性能過剩問題?

TAG:音樂 | 科技 | 互聯網 |