謠言比真相傳得更快更遠，看AI如何攔住它

09-03

來自專欄人工智慧學習筆記7 人贊了文章

測謊儀：研究人員正在建立網上演算法來檢查網上新聞的真實性

導語

這是假新聞的黃金時代，人們只會被謠言牽著走，拯救真相，可能要靠AI了。

編譯：集智翻譯組

來源：http://www.sciencenews.org

原題：People are bad at spotting fake news. Can computer programs do better?

瀏覽一個新聞報道有時覺得像在玩兒兩真一假遊戲。

有一些假話很容易識破。就像第一夫人梅蘭妮婭·川普（Melania Trump）想讓一個驅魔人來凈化奧巴馬時期白宮的惡魔，又或者一名俄亥俄州的校長因在學生大會上拉屎而被逮捕的報道。在其他一些案例中，瞎編的內容和事實結合得有點太完美了。CNN（新聞電台）真的被美國聯邦通信委員會突襲了？警察真的在一個阿拉巴馬的沃爾瑪里發現了一個毒品實驗室？假的，還是假的。但是任何一個瀏覽大量故事的人都很容易被騙。

我們生活在假信息的黃金時代。在推特上，假信息比真相傳播的更快更遠（SN：3/31/18，p.14)。據BuzzFeed新聞分析，在2016年總統大選的預備階段，相比於最真實的新聞，廣為流傳的假新聞會得到更多的facebook的分享，反應和評論。

鏈接：https://www.sciencenews.org/article/twitter-fake-news-truth

鏈接：https://www.buzzfeednews.com/article/craigsilverman/viral-fake-election-news-outperformed-real-news-on-facebook

在互聯網出現之前，一位來自加州大學聖克魯斯分校（the University of California, Santa Cruz）的計算機科學家盧卡·德阿爾法羅（Luca de Alfaro）說：「你沒法讓一個人坐在閣樓里構想出很多的陰謀論。但伴隨著當今的社交媒體，兜售謊話實在是太容易了--無論這些謊言來自像Disinfomedia這樣擁有好幾個假新聞網站的組織，還是來自在馬其頓一群通過寫大選期間假新聞迅速撈錢的青少年。

大多數互聯網使用者可能並不是故意傳播假新聞的。信息過量和上網者有限的集中注意時間對真實信息的檢查並沒有幫助。確認偏見也同樣如此。

一位在義大利威尼斯大學（Ca』 Foscari University of Venice）研究信息是怎麼在社交網路上擴散的的計算機科學家法比安娜·佐洛（Fabiana Zollo）說：「當你處理未經篩選的信息時，人們可能會選擇符合他們自己想法的事情，儘管信息是假的。「

無論分享者有意與否，分享假信息會產生嚴重後果。假新聞不僅僅會威脅大選的完整性，消磨公眾對真實新聞的信任，還會威脅生命。在WhatsApp（美國版微信，一種智能手機通訊系統）上傳播的假的傳聞煽動印度私刑導致了數人死亡。

為了幫助挑選真假新聞，程序員正在建立判斷網上故事的真實性的自動化系統。程序可能會考慮一篇文章的某些特徵或者文章在社交媒體上獲得的反響。識別出某些危險信號的電腦會提醒人工檢查員，他們會做最終決定。

印第安納大學布盧明頓分校（Indiana University Bloomington）的計算機科學家喬凡尼·盧卡·錢帕格利亞（Giovanni Luca Ciampaglia）說：「『自動測謊的工具』仍在起步階段。」研究人員正在探索有哪些因素可以很可靠地確定假新聞。

不幸的是，他們沒有商定好的真假故事組用來測試他們的策略。一些程序員依靠建立好的媒體或者國家新聞機構來確認故事是真是假，其他程序員則根據社交媒體上被舉報的假新聞列表。因此這方面的研究可以說是誰都可以參加。

但是全世界的研究小組都在快速推進研究，因為互聯網每天信息量很大，就像消防水帶噴水，依靠人工檢查信息真實性就好比用Brita濾水壺（很小）來過濾消防水帶的水，很困難。「這有點讓人頭腦麻木「，最年久最大的網上事實檢測網站Snopes的一位科學作家亞歷克斯·卡斯普拉克（Alex Kasprak）說道，「就是網上有太多的假新聞了。」

讀者參照

訪問真實新聞網站的人基本上都是直接訪問這些網站或者通過搜索引擎。假新聞網站通過社交媒體上的鏈接吸引更多瀏覽量的分享。

如何判別新聞真假：主旨和形式

說到直接檢查新聞內容時，有兩種方法來判斷故事真假：作者在說什麼和作者是如何敘述的。

錢帕利亞（Ciampaglia）和同事們用一個程序自動完成了這個令人厭煩的任務，這個程序檢查一個句子的主體和客體有多麼關聯。為了做到這一點，這個程序採用了從每頁維基百科右側的信息欄里的事實構建的龐大的名詞網路--儘管已經有類似的網路從其他知識庫被構建成，例如研究資料庫。

在錢帕利亞小組的名詞網路中，如果一個名詞出現在另一個的信息欄中，兩個名詞就是有關聯的。一份聲明的主體和客體之間在這個網路中分離度越小，連接主體和客體的中間詞越具體，這個電腦程序越可能把這個聲明標記為真實的。

以「巴拉克·奧巴馬（Barack Obama）是穆斯林「的虛假聲稱為例，在這個名詞網路中，「奧巴馬（Obama）」和「伊斯蘭（Islam）」之間有7個分離度，包括連接很多其他名詞的非常普遍的名詞，如」加拿大（Canada）「。2015年發表在 PLOS ONE 的一篇論文顯示，這個自動檢查事實的程序可以根據「奧巴馬」和「伊斯蘭」之間悠長曲折的路徑，判斷出「奧巴馬不可能是穆斯林」。

大致路徑

自動事實檢查程序通過研究從維基百科信息創建的名次網路中單詞「奧巴馬」和「伊斯蘭」的分離度來判斷「奧巴馬是穆斯林」這一聲稱。這兩個單詞之間過於模糊的聯繫表明了這份聲明是假的。

但是根據這種主客觀分離度來估計語句的真實性是有局限的。舉個例子，這個系統認為前總統喬治·布希（George W. Bush）可能娶了勞拉·布希（Laura Bush）。這很好。它還認為喬治·布希可能娶了芭芭拉·布希（Barbara Bush），他的媽媽。這就糟糕了。錢帕利亞和同事們一直致力於讓他們的程序對這個網路中名詞之間的關係有更細緻的看法。

確認一篇文章中每一句話並不是判斷故事是否真實的唯一辦法。寫作風格也可能是另一個突破口。在紐約特洛伊倫斯勒理工學院（Rensselaer Polytechnic Institute in Troy, N.Y.）的計算機科學家班傑明·何尼（Benjamin Horne）和西貝爾·阿達利（Sibel Adali）從媒體中分析了75篇被Business Insider認為非常真實的文章和75篇從誤導騙人的網站黑名單中選出的假故事。相比於真實的新聞，假的文章趨於更短，重複使用更多的副詞。假的故事包含更少的引用，技術型語句和名詞。

根據這些結果，研究人員創建了一個電腦程序，這個程序用假新聞4個最有力的獨特因素——名詞的數量，引用的數量，多餘度和單詞總量，來判斷文章真實性。這個在去年蒙特利爾網路和社交媒體國際會議上展示的程序以71%的成功率把假新聞和真新聞分開（一個程序隨機把真假消息分類大概有50%正確率）。何尼和阿達利正在尋找假新聞的新特性來提高正確率。

鏈接：https://arxiv.org/abs/1703.09398

一位在密西根大學安娜堡校區的計算機科學家維羅妮卡·佩雷斯-羅薩（Verónica Pérez-Rosas）和他的同僚們對比了240篇真實和240篇瞎編的文章。就像Horne何尼和Adali阿達利，佩雷斯-羅薩的團隊在假文章中發現了比真文章中更多的副詞。在這個2017年8月23日報告於http://arXiv.org的分析中的假新聞同樣趨於用了更多的積極語言，表現更多的確定性。

鏈接：https://arxiv.org/abs/1708.07104

真話假話

一個數百篇文章的研究反映出真實和虛假新聞的格式上的區別。真實的故事包含更多表達分化的語言，然而虛假的故事表現出更多的確定性。

電腦不需要人類告訴它們假文章的哪方面露餡了。加州大學河濱分校（the University of California, Riverside）的計算機科學家，工程師瓦格里斯·帕帕利亞基斯（Vagelis Papalexakis）和同僚們建立了一個根據故事的相似性，將一些文章分類成組的假新聞探測器。研究人員並沒有提供如何評估相似性的具體說明。一旦這個程序按相似度將文章分組，研究人員會標記5%的文章為真實的或虛假的。

通過這個信息，這個描述於4月24日在http://arXiv.org上的演算法，會為剩下沒標記的文章預測標記。帕帕利亞基斯的團隊用twitter上分享的將近32000個真實和32000個虛假的文章，測試了這個系統。根據一小核（5%）的真相，這個程序能正確為其他69%的故事預測標記。

鏈接：https://arxiv.org/abs/1804.09088

成人監督

大概70%的正確率並不足夠準確，可以讓我們完全信任新聞審查程序。但是當一個用戶在瀏覽器上打開一個可疑的文章時，假新聞檢測器可以提供一個謹慎處理的提醒，類似於當你即將訪問一個沒有安全證書的網站時出現的提醒。

首先，社交媒體平台可以用假信息看門狗巡查新聞推送中有問題的文章，然後再傳給人工檢查員。如今，當選擇對哪些文章進行真實性檢測時，Facebook看重用戶的反饋——像那些認為不相信的評論或者認為文章是虛假的報告。公司隨後會將這些文章發送給http://FactCheck.org，PolitiFact或者Snopes這樣的專業公司進行鑒定。但是Facebook也對用其他的跡象來更有效地搜尋假信息持開放態度，Facebook發言人勞倫·斯文森（Lauren Svensson）說到。

無論電腦找假新聞多厲害，它們仍然不能完全取代人工檢查員，Horne 說到。判斷一個故事真假與否需要更加細微的觀察，這不是一台電腦能做得到的。

「假信息的界定是模糊的「，一位帝國理工學院的計算機科學家，經濟學家胡里奧·阿馬多·迪亞茲·洛佩茲（Julio Amador Diaz Lopez）說到。一些特殊情況，包括從上下文取出的事實，宣傳和幾乎不可能核實的聲明，比如宗教信仰，電腦很難識別的了。

Snopes的科學作家卡斯普拉克（Kasprak）設想未來的事實檢測將像計算機輔助錄音。第一步，自動化系統敲定出一個錄音的草稿。但是人類仍然需要檢查草稿中被忽略的細節，比如拼寫和語法錯誤，又或者使程序出錯的單詞。同樣的，電腦能編輯出可疑文章的名單來供人類檢查，卡斯普拉克強調人類仍然有著哪個標記為真實的最終決定權。

關注觀眾

即使演算法在判斷假文章上變得越來越精明，但不能保證虛假新聞創作者不會提高他們的造假手法以逃避檢測。如果電腦程序被設計成懷疑過於積極或者表達了很多的準確性的文章，那麼寫假新聞的作者就會相應地改善他們的寫作方式。

「假新聞，就像病毒一樣，可以自己進化升級。」這是北京航空航天大學的網路科學李大慶的觀點，他是研究推特上假新聞的專家。好在，我們評判網路新聞報道的真假，不光根據內容本身。

牆頭草

大多數討論這下面兩個災難的虛假謠言的Twitter用戶發推也只是單單地傳播了這些謠言。只有小部分發推尋求確認或者對故事表示懷疑。

一位在北京中國科學院計算技術研究所的計算機科學家曹娟發現在中國版twitter——新浪微博上，關於某條新聞的特定微博是判斷一篇特定文章真假與否的有力根據。曹的團隊建立了一個系統，把討論某一特定的新聞事件的微博聚集起來，然後把這些帖子分成兩組：一組表現為支持故事的，一組為反對的。這個系統考慮好幾個因素來衡量這些帖子的可信度。

例如，如果故事是集中發生在距離一名用戶很近的本地事件，那麼這名用戶的帖子則比離得遠的用戶的帖子更可信。如果一個用戶潛水了很長時間並開始發關於一個事件的帖子，那麼這種反常行為降低了這個用戶的可信度。通過衡量支持和懷疑帖子的社會思潮，程序會判斷一個特定的故事是否有可能是假的。

曹的團隊在73個真實的和73個虛假的事件上測試了這一技術，這些事件都被像中國新華社這樣的組織標記了真假。該演算法檢測了在新浪微博上關於這些故事的50000條微博，並以84%的正確率識別出了假新聞。曹的團隊在2016年鳳凰城AAAI會議上展示了這一成果。加州大學聖克魯斯分校的de Alfarot和其同僚們在去年馬其頓關於機械學習與資料庫知識發現原理和時間的歐洲會議上也同樣地公布，在Facebook上流傳的假新聞可以根據哪些用戶喜歡這些文章，來和真實新聞區分開來。

鏈接：https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12128

電腦會觀察故事是怎樣在社交媒體上傳開的，而不是看哪些人和文章有互動。李和同僚們研究了社交媒體上的新聞故事轉發的網路圖形。研究人員分析了在微博上大約1700個虛假的和500個真實的新聞故事的轉發網路圖形，同樣在Twitter上也分析了大約30個虛假的和30個真實的新聞網路。在兩個社交媒體網站，李的團隊發現，大多數人傾向於直接從一個來源轉發真實新聞，然而假新聞傾向於更多通過人們轉發其他轉發者來傳播的。

一種典型的真實新聞轉發的網路「看起來更像一顆星星，但假新聞傳播起來則像一棵樹」李說到。即使李的團隊忽略了信息是由像新聞頻道本身的知名官方來源發布的，這一點依然成立。3月9日在http://arXiv.org上發表稱，這些發現表明了電腦可以用社交媒體的參與度來作為真實性的檢測，甚至不需要觀察單獨的帖子。

鏈接：https://arxiv.org/abs/1803.03443

分叉傳播

在推特上，大多數人轉發（紅點）真實新聞是從一個，集中的來源（綠點）。虛假新聞通過人們轉發其他轉發者來傳播的。

真相

當假信息在社交網路上傳播時，如何處理好它依然是一個待解決的問題。單單地把假文章從新聞推送里抹掉可能並不是辦法。社交媒體平台用等級控制訪問者什麼看得到「就會像一個極權主義國家「，一個新加坡SSON分析的數據分析師墨菲·蔡（Murphy Choy）說到，「這會使所有相關的黨派變得非常不舒服。「

平台可以在虛假信息上放警告標記。但是標記已經被證實是虛假的故事可能會帶來一種不幸的「暗示真實的效果」。根據加拿大里賈納大學（the University of Regina）和耶魯大學（Yale University）的人類行為研究員戈登·彭尼庫克（Gordon Pennycook）和大衛·蘭德（David Rand ）在去年9月的社會科學研究網路發表的研究稱，人們可能會更加信任任何沒有被明確標記為假的的故事，無論它們被沒被檢查過。

鏈接：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3035384

公司發言人斯文松（Svensson）說，Facebook沒有刪掉假故事，而是從用戶的新聞推送下方揭穿假故事，這樣可以減少一篇假文章未來80%的閱讀量。此後只要用戶遇到相關的假新聞，Facebook就會在下面展示闢謠文章，雖然這項技術有風險。

在研究喜歡並分享陰謀論新聞的Facebook用戶時，佐羅（Zollo）和同事沃爾特·夸特羅奇奇（Walter Quattrociocchi）發現在陰謀家和揭發真相的文章互動之後，這些用戶確實會在Facebook陰謀論的主頁上提高活躍度。研究人員在社會系統中的複雜傳播現象（Complex Spreading Phenomena in Social Systems）中發表了這一發現。

鏈接：https://link.springer.com/chapter/10.1007/978-3-319-77332-2_10

在教電腦和人類識別假新聞方面仍然有太多的工作要做。就像一句老話說：在真相穿上鞋之前，謊言能走半個世界了。但是銳利的電腦演算法也許至少能用新的腳踝沙袋來減慢虛假新聞的傳播。

參考文獻：

K. Shu et al. 「Fake news detection on social media: A data mining perspective.」 arXiv.org. August 7, 2017.

B. Horne and S. Adali. This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News. International Conference on Web and Social Media, Montreal, Canada, May 15, 2017.

E. Tacchini et al. Some Like it Hoax: Automated Fake News Detection in Social Networks. ECML PKDD, Skopje, Macedonia, September 18, 2017.

F. Zollo and W. Quattrociocchi. Misinformation spreading on Facebook. Complex Spreading Phenomena in Social Systems. Published online June 22, 2018, p. 177. 10.1007/978-3-319-77332-2_10

G. Bastidas et al. Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings. arXiv:1804.09088. Posted April 24, 2018.

G. Ciampaglia et al. Computational fact checking from knowledge networks. PLOS One. Published online June 17, 2015. doi: 10.1371/journal.pone.0128193.

G. Pennycook and D.G. Rand. The Implied Truth Effect: Attaching Warnings to a Subset of Fake News Stories Increases Perceived Accuracy of Stories Without Warnings. SSRN. Posted September 14, 2017. doi: 10.2139/ssrn.3035384.

S. Vosoughi, D. Roy and S. Aral. The spread of true and false news online. Science. Vol. 359, March 9, 2018, p. 1146. doi:10.1126/science.aap9559.

Z. Jin et al. News Verification by Exploiting Conflicting Social Viewpoints in Microblogs. Thirtieth AAAI Conference on Artificial Intelligence, Phoenix, Ariz., February 14, 2016.

Z. Zhao et al. Fake news propagate differently from real news even at early stages of spreading. arXiv:1803.03443. Posted March 9, 2018.

拓展閱讀：

M. Temming. On Twitter, the lure of fake news is stronger than the truth. Science News. Vol. 193, March 31, 2018, p. 14.

M. Temming. Machines are getting schooled on fairness. Science News. Vol. 192, September 16, 2017, p. 26.

E. Engelhaupt. You』ve probably been tricked by fake news and don』t know it. Science News Online, December 4, 2016.

翻譯：小邪
審校：張朔
原文地址：https://www.sciencenews.org/article/can-computer-programs-flag-fake-news

謠言比真相傳得更快更遠，看AI如何攔住它

導語

真相

推薦閱讀