網易新聞的推薦邏輯到底是什麼?

每個新聞的標籤都有「內容質量差」和「重複,舊聞」,那麼選擇了這個理由又有什麼用,後台會如何推薦?還是其實並沒有任何作用,只是網易新聞這個大shabi用來忽悠智商不在線的用戶?


不光網易,大部分類今日頭條的資訊應用都有這麼一個「不感興趣」按鈕。我來解釋一下大致的邏輯。

假設所有的網路文章涉及到n個話題(關鍵詞),那麼資訊應用的後台程序可以根據對某一篇特定文章內容的分析,給這篇文章在n個話題上各賦予一個權重數值,那麼這一串數值就構成了這篇文章的權重向量,不妨叫做A。

而一個用戶,根據他對各種類型的文章的點擊、停留、搜索等等行為,程序也可以判斷他對n個話題各自感興趣的程度,在每個話題上各賦予一個數值,這一串數值構成了用戶的興趣向量,不妨叫做B。

那麼,我們拿一個A和一個B求內積,也就是把A的每一個分量和B的每一個分量各自相乘,再加起來。對於每一個ai*bi來說,如果ai=0,意味著這篇文章跟第i個話題無關,那麼ai*bi=0,如果bi=0,意味著這個讀者對第i個話題沒有興趣,ai*bi=0,只有ai和bi都不為0,說明這篇文章聊到了第i個話題,而讀者對這個話題也有興趣。那麼內積的數字越大,說明讀者和文章之間越匹配。

當一個用戶刷新時,系統就會挑選出與這個用戶的B向量內積最大的若干篇文章刷到他的時間線。然後根據用戶的行為例如有沒有打開、看完了多少、停留了多長時間、是否有評論轉發來轉過頭調整這個用戶的向量各個分量,如此周而復始。

「不感興趣」也是機器對你進行研究的因素之一。以提問者給出的截圖為例,你如果選擇「旅遊」、「敦煌游」或者「莫高窟」,機器會認為,你對這個話題不感興趣,那麼你的B向量中的分量,b旅遊、b敦煌游或者b莫高窟就會下降一些,關聯這個話題的答案出現在你的時間線的概率就降低了。

如果你選擇「來源:某某某某」,機器會認為你不喜歡這個作者,那麼這個作者對於你來說總體就會加上一個減益,比如原先你和這個作者之間的匹配度是A*B,你不喜歡一次之後,就變成了0.9A*B。

如果你選擇「內容質量差」,降低的應該是這個作者本身的評分,也就是說,這個作者以後去匹配所有讀者得分都會降低。不光他對你變成了0.99A*B,對另一個讀者C來說,也變成了0.99A*C。但是這一個評價效果應該是比較弱的,要很多人都覺得差,作者的評價才會顯著下降。

如果選擇「重複、舊聞」,則是幫機器調教去除重複的演算法。很多時候熱門新聞出來,例如「北京市調整房地產限購政策」,會有很多媒體寫,而且內容幾乎一模一樣,那麼發得快或者本身是權威機構的賬號的文章會更可能顯示,其他的則很可能被視為「重複文章」而被降低分發權重。如果你發現了是重複或舊聞,但又出現在了你的時間線,那麼機器就會標註出來,加強它以後對這類問題的學習。

經常有人說「今日頭條(或者別的什麼應用)推送的不是我愛看的東西」,這個可能是冷啟動的問題,因為你剛開始用時,機器無從判斷你的喜好,你的向量B是根據你用的手機、你的註冊信息(如果有)來大致估測的,要多用不喜歡按鈕,而且選擇好不喜歡的理由,一般來說不到一個月,系統推送的信息就會變得很準確了。


猜測一下。

選擇【內容質量差】這個標籤,會降低這篇文章以及這個作者的權重,後續這個作者的文章可能不會推薦給你,但是其他內容質量的文章還是會推給你,所以避免不了流裡面還是有內容質量差的文章。畢竟彼之砒霜,吾之蜜糖,每個人的口味是不一樣的。但是我相信每個作者應該也是有標籤的,你重複提交某一個標籤下的作者的文章為低質量文章,該標籤作者的內容也會收到的逐漸變少。

選擇了【重複、舊聞】這個標籤,實際上是幫助網易去判斷這個消息的時效性,給機器餵了東西,讓機器有更多的數據去學習,知道什麼是舊新聞。但是也沒有辦法避免收到此類的新聞,不過隨著機器學習的數據越來越多,後續的舊新聞應該會越來越少。

至於其他的標籤,都是實際內容的標籤,選擇了之後,代表你不關注這些內容,多提交幾次,這些標籤的內容就不會再推給你了。

但是不管怎麼樣,現在這種去中心化的資訊類軟體,內容差是無法避免的,標題黨也很多。業務上關心的是有內容可以看,作者關心的是怎麼把用戶騙進來。還是懷念過去的小編,雖然文章的觀點和角度和自己會有差異,但是至少還是可以保證質量的。


你能用網易新聞客戶端,看新聞已經說明你不是來看新聞的。


根據大數據你平常的瀏覽習慣推送相關新聞 包括你的聊天記錄網頁搜索記錄等等


推薦閱讀:

深度學習的研究領域是否有被過度誇大?
神經網路有哪些有意思,有趣的的應用案例?
如何理解spark中RDD和DataFrame的結構?
用什麼軟體可以切割10個G的txt數據?

TAG:媒體 | 網易 | 網易新聞 | 網易新聞客戶端 | 大數據 |