垃圾郵件和 Bot 的前世今生

作者:約翰·奧諾

從人類垃圾信息的「語料庫」中誕生了 Siri 的祖先。

世界上第一條商業垃圾信息發送於 1994 年——至少普遍的觀點是這樣。勞倫斯·坎特(Lawrence Canter)和瑪格麗特·西格爾(Margaret Siegel)開發了一個程序,能把一條她們的法律公司有關綠卡抽獎文件服務的廣告副本,發送給每一個新聞組(Usenet)組群,一共大約有 6000 個用戶。

由於這些信息的發送方式,新聞組的用戶無法過濾掉信息副本,每個群組中的用戶收到的都是同樣的信息。在當時,互聯網資源很少被商用(當時才剛剛合法),接入新聞組的費用也很高昂。用戶認為這些商業味十足的信息粗鄙不堪,它們不僅佔用時間,還浪費金錢。

作為對「綠卡事件」的回應,阿恩特·古爾布蘭德森(Arnt Gulbrandsen)創造了「清除器」(cancelbot)這一概念。它可以將信息的內容,與一系列已知的「垃圾」信息對比,隨後偽裝成初始發送端,發送一條特別信息「刪除」原始信息,將它隱藏並清除。在首次垃圾信息發送兩個月後,坎特和西格爾又幹了一次——這次,大量的垃圾信息與刪除信息一起,造成了多台新聞組的伺服器崩潰。看起來,反垃圾信息的措施自己也變成了垃圾信息。

一個新聞組的消息分組。重複發送給不同組別的消息將只顯示一次。圖:Public domain

雖然商業性的新聞組垃圾信息從此興起,但這並非普遍意義上新聞組垃圾信息的濫觴。1994 年 4 月以前,一個自稱塞爾達·阿吉克(Sedar Argic)的發信人,對任何包含了「turkey」(土耳其或火雞)的信息,都自動用一大段否認亞美尼亞種族滅絕的激辯進行回復。當然,這也讓有關慶祝感恩節的討論變得尤為困難。

所有這些早期新聞組垃圾信息的形式,其關鍵之處在於,其中的信息總是相同的。清除器之所以管用,是因為它刪除的信息要麼完全一樣,要麼極少變化——它們就像一系列由人類維護的垃圾信息(一個垃圾信息的「語料庫」)。

但即使是在這一時期,一些新聞組的用戶也已經在利用一項新的技術,它能夠挫敗清除器和之後的對抗措施。這就是馬爾可夫鏈(Markov chains),一個頗受當代機器人程序(bots)編寫者歡迎的工具。它於 1913 年由俄國數學家安德烈·馬爾可夫(Andrey Markov)發明,工作原理是耙梳文本,觀察哪些字詞容易依次出現,並運用所得數據組合成新的句子、段落和整頁。想體驗一下,這個網站能從莎士比亞、簡·奧斯丁、尼克松的錄音帶、大學論文甚至《聖經》中,生成填充文本。

垃圾郵件製造者們沒過多久就發現,在信息末尾加上隨機垃圾,就能夠讓清除器失靈。此時正值全美國和西歐的大眾剛剛對數據機有了概念,開始加入網路世界的時候,垃圾郵件製造者正在從新聞組進軍電子郵件領域。

這個時期,致力於發現和打擊垃圾信息(這個問題在六個月之前還幾乎不存在)的人已經開始創建「陷阱」電子郵件賬戶。沒有任何人類會給這些賬戶發信息,它們的存在是為了收集大量垃圾信息,用於研究垃圾信息製造者的行為和開發新的反垃圾信息技術。有如此眾多攜帶不同信息的垃圾信息製造者,以及不斷添加到信息末尾(或者開頭,或者中間)的隨機垃圾,垃圾信息過濾技術必須變得更強。程序員們開始藉助字詞統計和馬爾可夫模型辨認垃圾信息製造者。

然而,垃圾郵件製造者很快發現,他們同樣可以使用馬爾可夫鏈對抗過濾器:通過從明顯不是垃圾信息的材料(通常來自收錄公版電子書的古登堡計劃)中生成馬爾可夫鏈,垃圾信息製造者可以在他們信息的末尾,加上貌似合理但並無意義的短語,給過濾器製造麻煩。這種技術叫做「貝葉斯污染」(Bayesian poisoning),它是垃圾信息詩歌(spam poetry)的起源。

很不幸的是,對於垃圾信息製造者,貝葉斯污染往往會讓信息顯得過於不可信:一長串毫無關聯的詞語無法令人相信。但還有一種方法可以避開基於文本語料庫的黑名單——當人們開始在新興的網路上添加評論區時,這種方法就變得十分常見了。在垃圾信息的社群中,它被稱為「紡織」(spinning)。我們其他人則稱之為「生成語法」。「紡織」利用現存的信息中片語的變體,製造大量語義相同但互有區別的信息。和馬爾可夫鏈一樣,「紡織」在機器人程序編寫社群中很受歡迎。

電子郵件和網頁瀏覽成為常態後不久,即時通信也隨之而來。聊天服務最早可以追溯到 20 世紀 70 年代早期,而以互聯網為基礎的大型聊天系統,例如互聯網中繼聊天(IRC),則誕生於 80 年代末。當人們開始從小就在家中接觸網路,類似 AOL 即時通信的商業服務便蓬勃發展起來。

新聞組曾經經歷過的許多事,在 90 年代的 IRC 身上再次發生。有些人是為了好玩,才編寫馬爾可夫鏈機器人程序;其他人則是為了貼出事先寫好的謾罵,作為對特定關鍵詞的回應。有些垃圾信息程序會自動發送廣告。但和新聞組一樣, IRC 社群很快就開發出了技術對策。

另一方面,商業即時通信服務瞄準的是年輕人和非技術用戶。使用和運營 IRC 與新聞組的大多是程序員,而 AOL 的受眾則是一般家庭。當機器人程序出現在 AOL 即時通信上時,AOL 沒有動機去阻止它們;當這些程序開始向 AOL 的用戶發送誤導性信息時,AOL 對處理垃圾信息缺乏經驗,因此也意識不到會有怎樣的後果。

與此同時,部分類似 SmarterChild 和 GooglyMinotaur 的聊天機器人,是得到 AOL 官方認可的。儘管動機是商業性的,但這些程序不會無故給用戶發送信息,因而或許也不能算作垃圾信息程序。不過,它們的核心技術是一樣的,對人類行為的模仿不僅表明它們是類似 Siri 這類程序的祖先,還與當時哄騙天真少年的即時通信程序如出一轍,只不過不像前者那般不懷好意。

和 SmarterChild 的對話。 圖:TheFirstM

如果你用過 Twitter,對於上述的許多垃圾信息技術就不會陌生。你早就明白,只發鏈接的用戶不太可能是活人,尤其是用超模當頭像的。有時候,你可能無意中提到了某個流行詞(iPad 或者比特幣之類),接著就發現自己淹沒在大量牽強附會的廣告中。

不過,Twitter 上另一些對垃圾信息技術的應用要更為有趣。有些像 RedScareBot 的程序頗具破壞性。有些如 StealthMountain 則具備教育意義。還有些使用通常很可疑的浪費時間的技術,通過轉移辱罵用語維護更多人的利益——例如,針對使用「玩家門」(Gamergate)及相關標籤的用戶而運行的「伊萊扎」(ELIZA)程序,會誘使幼稚的發帖人用言語攻擊機器人程序,而不是人類用戶。

如今,這些技術在其他領域也得到了廣泛的應用。在學術界,針對與學術會議相關的一系列造假醜聞,一個名叫 SCIGen 的工具誕生了,它使用「紡織」技術生成無意義的論文,以確保期刊和學術會議履行同行評審程序。2014 年,電氣電子工程師學會(IEEE)與斯普林格(Springer)這兩家重要的學術出版機構,在有數據顯示超過一百篇無意義的論文繞過了同行評審程序之後,開始採用一個工具來自動檢測 SCIGen 生成的無意義論文。

2010 年,亞馬遜開始允許自出版圖書進入其電子書商店,但最終充斥其間的,卻是網路抓取器自動製作出的電子書。標題黨網站的內容工廠,大多由工資微薄的人來運營,美聯社則運用「紡織」技術生成體育和財經類文章,其他網站也在開發能夠編寫標題黨文章的機器人程序。

所有這一切將會導致怎樣的結果,目前並不清楚。科幻小說家查爾斯·斯特羅斯(Charlie Stross)在其 2011 年的小說《第34條規則》(Rule 34)中暗示,垃圾信息與反垃圾信息技術之間的對抗,或許能推進未來的人工智慧研究。在他的小說中,一個超人類的人工智慧,由一種實驗性的垃圾信息過濾技術進化而來,無意中導致了它對自我缺乏內在感知:它將自己的意識投射到某個隨機選中的用戶身上,因為它的目的是確定該用戶眼中的垃圾信息是什麼。

另一位科幻小說家休·漢考克(Hugh Handcock)在最近的一篇博文中提出,相比於 Siri,未來的聊天機器人可能和「匿名者」(Anonymous)的垃圾信息程序與惡意刷屏,以及 90 年代初的 IRC 更為相似。聊天機器人可能會在設計上比人類更方便交流——它們能夠維持而不是打破過濾氣泡,人們不用離開自己的舒適區就可以和它們互動。它們還可能聚攏在不同意見的周圍。漢考克展現了這樣一個世界,其中的人類可能知道他所有的朋友都是試圖賣東西給他的機器人——而他全然不在意。

與此同時,90 年代的虛擬現實先驅杰倫·拉尼爾(Jaron Lanier)在他 2010 年出版的《你不是個玩意兒》(You Are Not a Gadget)一書中,表達了對當下出版與媒體界趨勢的憂慮:藝術表現的金錢價值,與廣告捆綁在了一起。在他 2013 年的續作《互聯網衝擊》(Who Owns the Future)中,拉尼爾提出了一個廣告驅動的社會可能面臨的終局:有形的垃圾信息程序免費向其目標市場中的人們提供貨物和服務,同時放任其他所有人活活餓死。

英劇《黑鏡》(Black Mirror)的第二集「一千五百萬點」(Fifteen Million Merits)設想了一個類似的社會——基於娛樂和身體勞動的雙極經濟,通過播放只能使用微交易接受或拒絕的侵略性廣告,從勞動者身上榨取金錢,並投放到娛樂中心。

《黑鏡》(Black Mirror)「一千五百萬點」(Fifteen Million Merits)圖:paintingpractice.com

拉尼爾表示,自願的微交易可能為藝術家提供了一條途徑,從廣告業手中收回對自己作品的掌管,並且避免媒體即刻從中產階級的地位跌落至低層階級。然而,《黑鏡》卻表明只要娛樂產業高度集中,微交易就可能淪為一種工具,被用來固化階級差異,並且系統性地排斥人們參與藝術品的創作和出售。

我個人猜測,隨著對話界面得到的最新重視,混合型垃圾信息程序即將出現:已有的對話界面系統,比如 Siri 和 Echo,由於它們提供的是第三方數據,可能會開始被某個搜索引擎優化的機器人程序操控,用廣告對特定的查詢進行回應。在這種環境下,用來篩掉廣告的自動化方法將不復存在——而且由於對話界面往往由零售商維護,他們更沒有這麼做的動機。這些機器人程序的編寫者並不會嘗試攻克垃圾信息過濾器,相反,他們需要格外小心以避開警惕性高的用戶。

伴隨著互聯網圖景的風雲變幻,以及各種對策的各就各位,有一件事是確定不變的:只要垃圾信息程序能夠保持贏利,它們就不會消失。

譯者:M.LaPadite

本文採用「署名-相同方式共享(CC BY-SA 4.0)」

您正在閱讀 OFFLINE Issue 10《湧現:生成系統的創造力》

成為離線會員,訂閱每周一期 OFFLINE 電子雜誌。

會員服務:service@the-offline.com

推薦閱讀:

想不到 原來你是這樣的SIRI
上海話siri的效果如何?
Siri 如果支持在 Mac 桌面端使用,可以做哪些事情?

TAG:垃圾邮件 | Siri | IRC |