網易新聞的推薦邏輯到底是什麼？

01-08

每個新聞的標籤都有「內容質量差」和「重複，舊聞」，那麼選擇了這個理由又有什麼用，後台會如何推薦？還是其實並沒有任何作用，只是網易新聞這個大shabi用來忽悠智商不在線的用戶？

不光網易，大部分類今日頭條的資訊應用都有這麼一個「不感興趣」按鈕。我來解釋一下大致的邏輯。

假設所有的網路文章涉及到n個話題（關鍵詞），那麼資訊應用的後台程序可以根據對某一篇特定文章內容的分析，給這篇文章在n個話題上各賦予一個權重數值，那麼這一串數值就構成了這篇文章的權重向量，不妨叫做A。

而一個用戶，根據他對各種類型的文章的點擊、停留、搜索等等行為，程序也可以判斷他對n個話題各自感興趣的程度，在每個話題上各賦予一個數值，這一串數值構成了用戶的興趣向量，不妨叫做B。

那麼，我們拿一個A和一個B求內積，也就是把A的每一個分量和B的每一個分量各自相乘，再加起來。對於每一個ai*bi來說，如果ai=0，意味著這篇文章跟第i個話題無關，那麼ai*bi=0，如果bi=0，意味著這個讀者對第i個話題沒有興趣，ai*bi=0，只有ai和bi都不為0，說明這篇文章聊到了第i個話題，而讀者對這個話題也有興趣。那麼內積的數字越大，說明讀者和文章之間越匹配。

當一個用戶刷新時，系統就會挑選出與這個用戶的B向量內積最大的若干篇文章刷到他的時間線。然後根據用戶的行為例如有沒有打開、看完了多少、停留了多長時間、是否有評論轉發來轉過頭調整這個用戶的向量各個分量，如此周而復始。

「不感興趣」也是機器對你進行研究的因素之一。以提問者給出的截圖為例，你如果選擇「旅遊」、「敦煌游」或者「莫高窟」，機器會認為，你對這個話題不感興趣，那麼你的B向量中的分量，b旅遊、b敦煌游或者b莫高窟就會下降一些，關聯這個話題的答案出現在你的時間線的概率就降低了。

如果你選擇「來源：某某某某」，機器會認為你不喜歡這個作者，那麼這個作者對於你來說總體就會加上一個減益，比如原先你和這個作者之間的匹配度是A*B，你不喜歡一次之後，就變成了0.9A*B。

如果你選擇「內容質量差」，降低的應該是這個作者本身的評分，也就是說，這個作者以後去匹配所有讀者得分都會降低。不光他對你變成了0.99A*B，對另一個讀者C來說，也變成了0.99A*C。但是這一個評價效果應該是比較弱的，要很多人都覺得差，作者的評價才會顯著下降。

如果選擇「重複、舊聞」，則是幫機器調教去除重複的演算法。很多時候熱門新聞出來，例如「北京市調整房地產限購政策」，會有很多媒體寫，而且內容幾乎一模一樣，那麼發得快或者本身是權威機構的賬號的文章會更可能顯示，其他的則很可能被視為「重複文章」而被降低分發權重。如果你發現了是重複或舊聞，但又出現在了你的時間線，那麼機器就會標註出來，加強它以後對這類問題的學習。

經常有人說「今日頭條（或者別的什麼應用）推送的不是我愛看的東西」，這個可能是冷啟動的問題，因為你剛開始用時，機器無從判斷你的喜好，你的向量B是根據你用的手機、你的註冊信息（如果有）來大致估測的，要多用不喜歡按鈕，而且選擇好不喜歡的理由，一般來說不到一個月，系統推送的信息就會變得很準確了。

猜測一下。

選擇【內容質量差】這個標籤，會降低這篇文章以及這個作者的權重，後續這個作者的文章可能不會推薦給你，但是其他內容質量的文章還是會推給你，所以避免不了流裡面還是有內容質量差的文章。畢竟彼之砒霜，吾之蜜糖，每個人的口味是不一樣的。但是我相信每個作者應該也是有標籤的，你重複提交某一個標籤下的作者的文章為低質量文章，該標籤作者的內容也會收到的逐漸變少。

選擇了【重複、舊聞】這個標籤，實際上是幫助網易去判斷這個消息的時效性，給機器餵了東西，讓機器有更多的數據去學習，知道什麼是舊新聞。但是也沒有辦法避免收到此類的新聞，不過隨著機器學習的數據越來越多，後續的舊新聞應該會越來越少。

至於其他的標籤，都是實際內容的標籤，選擇了之後，代表你不關注這些內容，多提交幾次，這些標籤的內容就不會再推給你了。

但是不管怎麼樣，現在這種去中心化的資訊類軟體，內容差是無法避免的，標題黨也很多。業務上關心的是有內容可以看，作者關心的是怎麼把用戶騙進來。還是懷念過去的小編，雖然文章的觀點和角度和自己會有差異，但是至少還是可以保證質量的。

你能用網易新聞客戶端，看新聞已經說明你不是來看新聞的。

根據大數據你平常的瀏覽習慣推送相關新聞包括你的聊天記錄網頁搜索記錄等等