製作假新聞？AI送你去喝茶！

02-22

你平時被假新聞坑過嗎？民意調查網站 YouGov 最近發布了一項調查顯示，亞太地區的大多數人對網路新聞持懷疑態度。相比電視和廣播，人們對假新聞要擔憂得多。

造成這種現象的原因，以及假新聞的普遍特徵，主要有以下幾點：

現在創建網站非常簡單
推廣網站同樣非常容易而且見效快
通過網路賣廣告位賺錢變得很容易
社交媒體的平均主義——任何觀點的潛在影響力都是相同的
自動廣告演算法不能很好的區分真假站點

當大多數熱點都還在關注重大事件的假新聞時，假新聞的潛在問題已經涉及到了很多方面。

在互聯網上推廣產品和服務時可以用正規真實的方式，但也能輕易傳遞虛假誇張的信息，而這兩種信息，在平等的互聯網世界裡幾乎具有相同的影響力。這就意味著，商業競爭者可以輕易的在市場中散播對手的負面言論，同時由於互聯網的天然屬性，他們完全能以匿名的方式這麼做：大不了矢口否認就行。

還有一種很明顯的後果。通常很多機構和公司會僱傭第三方來發布他們的廣告內容。這些內容都由各類自動演算法發布，例如編寫好的營銷軟體。這就意味著產品或服務的廣告很有可能會被放在含有假新聞的網站上，那麼產品的品牌就會因此受到牽連：人們會認為，如果網站的主要內容是假的，那麼這些廣告信息很有可能也是假的。

隨著社交網站越來越多以及移動互利網的發展，越來越多的人通過社交網路了解外界信息，而我們關注這些平台上的新聞和文章，又直接影響到我們未來會看到哪些文章和信息，因為社交演算法會將傾向於把類似的內容展示給我們。而如今恰恰有很多斷章取義的報道，或者故意炮製的假新聞，一旦這些信息經過社交網路放大，會極大地影響輿論。

為了對抗假新聞，很多公司和機構不遺餘力地嘗試各種方法。去年美國西佛吉尼亞大學的研究人員就開始嘗試用人工智慧對抗假新聞，他們用機器學習中的自然語言處理技術對新聞報道進行分析，並對報道是假新聞的可能性進行打分，並且還會給出所打分值的原因。

還有些研發人員正在研究用 AI 解析來自不同網站的內容，並將文章與第三方對事件的報道進行對比，以尋找可能具有誤導性的虛假內容。

除了從報道角度打假，還有一些研究人員嘗試從網站的角度：判定新聞網站的真假。近日，芬蘭的一位研究人員在知名論壇 Reddit 發布了一個關於假新聞網站的頭條話題，分享他如何用人工智慧打擊假新聞：

What I learned by studying fake news sites with machine learning ? r/fakenewswww.reddit.com

在帖子中，他論述了人們可以利用機器學習技術判定某些網站是否是虛假網站。他的方法主要包含兩部分：數據收集和機器學習。

在數據收集環節，他創建了一個新聞網站的數據集，包括 60 個發布假新聞的網站和 58 個獲得普利策獎的真實新聞網站。數據集包含了這些網站一些公開信息，例如註冊用戶，基於 ALEXA 頁面排行的熱度，頁面上的廣告數量，是否存在病毒，基本的網站架構平台，和提供給這個網站的廣告聚合服務等。

然後，機器學習演算法會訪問和分析每個網站，其中大約 80 %的網站被用來訓練模型，20 %的網站被用來驗證演算法結果。具體來說，他在 scikit-learn 上搭建的預測模型，使用了決策樹演算法、隨機森林、邏輯回歸、K最近鄰和樸素貝葉斯等5個演算法。

在所使用的 5 個預測演算法中，即使最低效的演算法也可以以 88.5 %的正確率分辨出假新聞網站。最高效的演算法則可以達到 94.7 %的正確率，其中只有一個真新聞站點被判斷為假站點，其他所有的假新聞站點都被識別了出來。

對技術感興趣的朋友可去原貼詳細了解他用的代碼、測試方法和數據集等，但對商業感興趣的朋友，這些信息更重要：

專門為真新聞站點提供廣告服務的服務商比假新聞站點的要多。這是一個很有趣的現象，因為很多假新聞站點存在的目的就是賣廣告，而不是傳播內容。
假新聞站點不會存在很長時間。50%的站點在第一次被發現後的數月內就消失了。
所有的假新聞站點都是建立在Wordpress上的，這一點很少被人提及。
一些假新聞站會把自己偽裝成時事評論網站，同時大多數都會隱藏自己的WHOIS證書。
網站的伺服器是否使用TLS/SSL並不能成為判斷真假站點的標誌。
一些假新聞站點會使用可疑的方式來得到社交網站點贊。

或許，識別虛假信息源會是一個很有市場的業務。可以為企業提供 AI 工具判斷他們廣告服務商的成果（例如，檢查商業廣告的最終投放地點），或者搭建 AI 模型，探測哪裡出現了假新聞網站，推廣了哪些假信息。

不過，雖然人工智慧可以在打擊假新聞中發揮重要作用，但人類仍然肩負著遏制假新聞的主要責任。而且未來利用 AI 打假仍需人機協作，例如假新聞可以通過植入一個「事實」來保護自己，從而不會被檢測到。

雖然審查新聞的 AI 演算法可以利用現有的內容來驗證故事的準確性，但當一家聲譽良好的媒體發布突發新聞時，它可能會在沒有太多故事背景的情況下發布信息，這反過來會影響到人工智慧系統的決策。因此，我們每個人在社交網路上分享內容時，也應更加謹慎和認真，盡量做到不造謠、不信謠、不傳謠，畢竟...沒人想被喝茶吧？

向你推薦：

一文讀懂CNN如何用於NLP - 集智專欄

邊看邊練的簡明機器學習教程 Part II - 集智專欄

是直是彎？爆照判斷 - 集智專欄