自動信息推薦/新聞推薦機制,能避免假消息/假新聞的傳播嗎?

今天 Facebook 承認其 Newsfeed 和 Trending 產品存在將假新聞/假消息推薦給用戶的問題,並承諾會積極研究、解決這個問題,但沒有給出具體做法和思路。辨別假新聞假消息對機器來說有多難?沒有人工不行嗎?


說一下結論,這個問題在推薦系統,或者邪氣一點,叫人工智慧層面,是多個問題的集合,而且對其處理和識別技術已經在APP中有所應用,但是暫時不能脫離人工。

Facebook只是給出了一個公關稿,並沒有詳細說明,但是深挖下去,這個問題的坑深不可測。

假新聞其實有很多種:

  • 違反客觀事實的假新聞:《八旬老叟和八旬老婦竟然生出一個黑人寶寶》
  • 極大誇大其詞的文章:《一米八大長腿,北美女神范這樣養成》,打開看其實是鳳姐的自拍照
  • 本來是真新聞,過了時效性仍在流出,變成了假新聞:天氣預報本來說今天有雨,結果晴空萬里---結果天氣預報是兩年前今天的天氣預報
  • 摻雜假消息的真文章,常見於各種收錢軟文,替僱主說話的同時編造事實中傷對手
  • 範圍傳播有限的新聞,若推送給了非範圍內的用戶,也可以視作假新聞:《人民大街今早八點至晚六點停水》

很多時候,一篇文章雌雄莫辨,真假混雜。所以一般地,我們更願意管這類文章叫做低質文章。

以上描述的幾個類別,都是低質文章中「內容低質」的典型。低質文章還有「格式低質」,「行文低質」等等,和本題目無關,不做討論。

對於不同類別的內容低質量文章,可以用不同的方法來進行審查和篩選。

對於空間範圍有限的文章:

搞一個分類器加命名實體識別,局限一下推送範圍即可。

對於時間範圍有限的文章:

首先走分類器,辨別文章的時效屬性。然後同資料庫文章進行對比,來辨別是否是「舊聞」了。

對於一些真假莫辯的文章,可以說,人類不通過旁徵博引和深入思考來證偽的文章,機器是更沒辦法識別出來的。

如A品牌在自己軟文里重傷排行榜第一的B品牌有質量問題,對消費者不友好。即使B品牌在消費者中有口皆碑,機器不知道。

這種問題,文本特徵搞不定,我們只能靠協同特徵,通過觀察用戶的評論、頂踩、以及更strong的舉報,來進行撤下和打壓處理。

從機器學習上來講,這是一類典型的supervised learning問題

而且正負樣本分布十分不均勻;

演算法的正確性嚴重依賴樣本的好壞;

所以審核人員在這個角度上必不可少。但是他們不會對所有可疑新聞進行審核,他們更大的作用在於給演算法提供可靠的和更全面的訓練集。

所以審核人員拿到的不是全量的可疑新聞,而是sample的一部分新聞。當然如何sample新聞以得到高效的訓練集,是另一個問題了。

====

另外一點就是,政治新聞這種高壓線新聞,涉及到重大事件和領導人的,必須要上人工審核,畢竟機器沒有腦袋,而你有腦袋,有飯碗,有妻兒老小。


最近《美國國家科學院院刊》上有一篇文章,研究者以一系列八個實驗來告訴大家一件事——人們一旦覺察到其他讀者的存在,進行事實查核的意願便會降低。不過只要提醒人們記起自己的責任與義務,便有機會抵消這個負面效果。

主要的實驗流程是這樣的:實驗參與者必須登入某新聞網站並在上面閱讀三十多個新聞標題,但這些標題有真有假,參與者的工作便是決定哪些標題是真的哪些標題是假的。每答對一題得一分,但若答錯一題也會被扣一分,最終的分數會被換算成金錢發放給參與者。選項有三個,除了[真]和[假]之外,還有[事實查核]這第三個選項。如果參與者在某一題選了[事實查核](fact checking)這個選項,那他就可以在實驗結束時得知這一題的正確答案。

參與者被分成兩組,其中一組人在登陸新聞網站後,會見到自己的名字顯示在網頁角落,在此將這組稱之為[單獨]組。另一組人在登入後,除了自己的名字外,還會看到另外102個正在線上的其他使用者的名字,稱之為[群體]組。就這樣,這個操作很簡單吧?但是這樣竟然對參與者選擇[事實查核]的意願產生了影響。不管在哪個實驗中,[群體]組的參與者選擇[事實查核]的比例都比[單獨]組還要低。而且不管選擇[事實查核]可以加分或會被扣分,結果都是一樣的。

接下來的實驗更神奇了。研究者把原本的「新聞網站」改成「Facebook」,也就是讓參與者在Facebook的介面上讀這些新聞標題並判斷真偽。結果當介面換成Facebook這種社交網站之後,[單獨]組選擇[事實查核]的比例竟然降得跟[群體]組一樣低。是不是因為Facebook這種社交網站,不管怎樣都會給人「總是會有誰也在看吧」的感覺呢?

中間還有好幾個實驗,這邊先略過不談,不過我想提一下最後一個實驗。因為研究者發現,一般而言警覺性(vigilance)比較高的人,似乎比較不容易因為身處群體中就疏於事實查核。是以在最後一個實驗中,研究者想知道人們的警覺是不是造成[群體]組事實查核比例較低這個現象的原因之一,於是便要求參與者在開始讀新聞之前先回想自己過去和現在的職責、義務與責任(duties, obligations, and responsibilities)。這麼一做果然讓[群體]組選擇[事實查核]的比例增加到跟[單獨]組一樣高!

所以,解決問題的方法,還是需要大家記得提醒自己,在社交網站上看新聞的時候要特別提高警覺,想清楚再決定要不要點贊分享。

文獻:

Jun, Y., Meng, R., Johar, G. V. (2017). Perceived social presence reduces fact-checking. Proceedings of the National Academy of Sciences.


真假本來就是相對的

一方面一個事實在不同側面被不同人解讀都會有不同的情緒,你看到的新聞只是文字音頻視頻,都和創作者角度立場信息量有關

另一方面很多事情的真假都是隨著時間的流逝經過大量努力才能被澄清證實,一則新聞只是一個時間切片下對這個事情的描述,演算法機制之類根本沒法違反時間法則證明一個新聞的真假

在我看來唯一的途徑就是保持信息的充分流通,任何一個新聞旁邊都放出其他渠道的新聞側面,供管看著自己索引判斷


我覺得不可以

目前的推薦系統主要還是根據用戶的歷史記錄來進行推薦,對於具體推薦的是什麼,系統並沒有做過多的限制。

假的新聞能夠廣泛傳播肯定是有許多人或者水軍點擊並進行轉載,這對於推薦系統無法辨別,換句話說,他們利用了推薦系統。我覺得這不是推薦系統的問題,也不是推薦系統的責任。每個人還是要有對新聞進行甄別的能力。

當然可以加一些固定的條件限制來對真假新聞進行篩選,但是沒有人工在裡面,效果應該不佳。

推薦系統實際上幫助你進行信息篩選,但會造成你獲得的信息是片面的,不全的,這也是推薦系統本質上的缺陷。


推薦閱讀:

你為什麼從今日頭條離職?
如何進行今日頭條信息流的廣告投放?有什麼方法進行優化管理?
今日頭條怎麼運營?
今日頭條的銷售好做嗎
張一鳴為什麼從酷訊出來做了今日頭條(資訊類),而不做旅遊呢?

TAG:Facebook | 社交媒體 | 機器學習 | 推薦機制 | 今日頭條應用 |