「數據挖掘演算法助川普大選獲勝」的真相終於揭開

川普團隊意外贏得大選以來,一直有一種說法,聲稱川普勝利的關鍵在於其金主華爾街大佬Mercer支持的數據助選公司Cambriage Analytica(下簡稱CA)的神奇演算法。據說,CA使用了某種先進的統計學數據挖掘方法,能夠通過臉書對選民進行精準的廣告投放。所以,是高科技幫助川普取得了勝利。

圖:CA公司CEO Nix

作為一名有多年專業工作經驗的統計學博士,我不懷疑CA在川普勝選中起到了作用。但我一直認為,川普勝在統計學方法先進的說法經不起推敲。因為統計方法再神奇,也不能離開數據無中生有。有意義的結論只有在擁有相當數量的原始數據時方才可能。結論越細緻,所要求的數據量就越大。先進的統計方法只有和足夠大量的數據結合才能展現出威力,否則就是巧婦難為無米之炊。而一旦有了海量數據,經常並不需要什麼格外時髦的統計學工具,也很容易發現有關結論。

所以,如果CA的數據研究真的對川普勝利起到相當的作用,那不太可能是因為他們有了什麼神奇的統計方法,而多半是因為他們擁有了別人沒有的大量數據。問題只在於,這些數據是如何獲得的?

今天美國紐約時報與英國衛報同時發表的兩篇長篇調查報告初步揭示了真相:CA公司的數據,來自於對共計五千萬美國臉書用戶信息的非法盜取。這次數據盜取由川普團隊和俄國政府勾結完成,而這一事件之所以能夠發生、並直到今天才被揭露,則源於臉書公司對用戶數據安全管理高度不負責任所造成的重大疏忽——以及事情發生後的竭力隱瞞。

根據紐約時報和衛報,為川普團隊競選服務的CA數據公司(「劍橋分析」)用於建模所使用的五千萬臉書用戶詳細資料均屬盜取。其中,又有三千萬人的資料詳細到可以與其他公共資料如選民登記表建立對應(例如包括用戶的詳細地址)。而在這五千萬用戶中,真正同意有關方面進行臉書數據搜集的僅有27萬人,而且所同意的只是將數據用於「學術目的」。

圖:支持CA公司的川普金主,華爾街大佬Mercer及其女。其女為CA公司董事會成員。

五千萬(或三千萬)是個極高的數字。在2016年大選中,總投票人數約為1.3億人。川普獲得的總票數其實比希拉里還少三百萬,但只是因為在幾個人口較多的關鍵州以極其微弱優勢險勝才勉強上位。例如,川普在佛羅里達比希拉里多約10萬票(或總票數1%),在賓夕法尼亞多5萬票(或總票數0.7%),在威斯康星多2萬票(或總票數0.8%),在密歇根多一萬票(或總票數0.2%),可見差距之接近。完全有理由認為,如果川普團隊沒有拿到這批海量信息,大選的結果就會改寫。

這些信息包括了幾千萬用戶的日常。他們的住址、性別、種族、年齡、工作經歷、教育背景、人際關係網路、平時參加何種活動、發表了什麼帖子、閱讀了什麼帖子、對什麼帖子點過贊(like)等等。

掌握了如此詳細的資料,進行建模並有針對性的向用戶發送信息影響其思想和投票行為就不再是難事,也不需要什麼特別高深的模型。假如某位用戶曾為題目是『911是美國政府監守自盜』的帖子點過贊,那大可以投其所好,向其推送一點『希拉里養性奴』的故事。他不僅自己會去閱讀,還有很大可能四處轉發。能夠這樣精準投放,自然事半功倍,省錢省力。

在只有27萬人同意的情況下又如何做到搜集五千萬人信息?這是因為臉書在保障用戶信息安全管理方面存在巨大漏洞。

按照衛報和紐約時報的報道,這一數據盜取的具體做法是:先廣泛發布廣告,以「有償心理學研究」為名,用少量金錢為獎勵,誘導美國用戶下載應用軟體在亞馬遜旗下網站「Mechanical Turk」和「Qualtrics」上參加問卷調查。在問卷調查末尾,再請求用戶同意該軟體查看其臉書資料。但這些用戶不知道的是,他們點擊「同意」之後,這一應用軟體不但搜集了他們本人信息,還進一步順藤摸瓜搜集了從他們臉書頁面能看到的其所有臉書好友信息。而這些人的臉書好友則對其信息被搜集毫不知情。利用這種方法,27萬名參與「問卷調查」的「種子用戶」變成了特洛伊木馬,導致了五千萬用戶信息泄露。

這種做法之所以能夠得逞,來自於臉書本身的技術和管理漏洞。臉書僅僅規定,應用軟體要抓取某位用戶的臉書內容需要取得該用戶本人的同意。但一旦獲得同意,則有關軟體立即可以看到該用戶臉書頁面上所有內容,而這些內容又包括了該用戶所有好友的詳細個人信息,以及他們在臉書上發帖,閱讀,點贊的所有情況。看起來,臉書並未在知情同意條款上區分某位臉書用戶自己發布的信息,和並非他本人發布,但是從其頁面上能看到的他人所發布信息這二者的巨大不同。這一漏洞導致了海量用戶信息在自己不知情的情況下泄露。

俄國政府參與這一事件可以說鐵證如山。實際上,真正執行臉書數據抓取操作的是一位名叫Kogan的劍橋大學心理學系高級研究員。Kogan博士在劍橋的同事們所不知道的是,Kogan同時又是俄國彼得堡大學副教授,並從俄國政府領取項目經費,以研究「社交網路中的壓力與心理健康」項目。CA公司後來用於大選的「心理學建模」方法,正是此人在劍橋大學所參與的課題組所發明。該課題組掌握有對facebook用戶信息抓取並進行建模的技術。所以川普金主、華爾街大佬Mercer所支持CA公司一開始派人(所派之人正是後來對衛報爆料的Wylie)與這一課題組聯繫並試圖建立合作關係。但該課題組負責人拒絕了這一要求。

圖:俄國彼得堡大學副教授,英國劍橋大學高級研究員Kogan。

圖:衛報爆料人Wylie

在此之後,了解有關技術的Kogan博士單獨與CA接洽達成合作意向。Kogan成立了名為GSR的公司,共投入來自CA的八百萬美元資金,以「學術研究」為名義開始挖掘臉書用戶數據。

與俄國的聯繫還遠遠不止於此。衛報報道,在2014年7月,正在大肆挖掘臉書用戶數據的CA公司開始了與俄國石油寡頭公司Lukoil一系列看似莫名其妙的聯絡。Lukoil要求CA向他們介紹利用數據對選民進行「微觀定位」的助選方法與石油業消費者的關係。並提出,有關信息會由該公司CEO本人過目。而該CEO正是與普京聯繫密切的Vagit Alekperov。

如果不了解Lukoil背景,就很難理解為何一家石油公司會如此熱衷於美國選舉,也很難理解美國大選的助選方法與石油業消費者有何相干。但實際上,這家公司正是普京用來對外國政局施加影響的工具之一。比如強烈親俄的捷克總統一位顧問就被發現由該公司發放工資。

看看衛報拿到的CA應要求在2014年夏天發給Lukoil的一份報告就會恍然大悟。在這份報告中完全沒有提及「石油業消費者」,而全部在描述從臉書抓取的有關數據特點、建模方法、以及最重要的——如何利用這批數據干擾選舉。這份報告的第一頁講的就是CA公司在所參與的2007年奈及利亞大選中進行「謠言競選」的經驗——例如廣泛散布「選舉存在舞弊」的謠言。而報告最後一頁,則正是關於「針對選民心理分類投放信息」的內容。

在這一系列事件中,臉書公司扮演了極不光彩的角色。

首先,他們很早就知道了這一大規模數據搜集行為。爆料人Wylie告訴衛報,Kogan的應用軟體一開始下載海量用戶數據,臉書的內部安全監控程序就已發現。但Kogan向臉書解釋說這一切都是為了「學術用途」,臉書就沒有再進行任何追究。

到2015年12月,衛報已經披露,有臉書用戶的個人數據被用於支持德州參議員克魯茲參加共和黨總統候選人初選。即便如此,臉書也一直拖延到2016年8月(即大選前三個月)方才向早已離開CA公司的Wylie寫信,要求他「刪除數據」,僅此而已。之後並未做任何努力追查這批數據是否真的被刪除,又曾經被用於何種目的。

正常人容易想到,哪怕臉書無力進行追查,也應該及時向公眾和美國政府告知這一大規模數據泄露事件。公眾一旦知情,總有人會反省自己在臉書上所看到的世界,是否為有人盜取了自己信息後、為某種特定目的所特意構造而成。

但可悲的是,直到臉書公司一直到筆者寫作此文的時刻仍在否認問題的存在性和嚴重性。

紐約時報記者在調查過程中,既已多次向臉書提出問詢。臉書則先是不承認數據泄露範圍有如此之廣,並對這批數據並未被銷毀的說法進行質疑。只是在周五獲悉紐約時報即將發表調查報告之後,才勉強在自己網站上發表聲明承認有數據泄露並表示要採取行動。

讀一下臉書聲明內容,就會發現他們仍在玩弄話術以掩人耳目。臉書聲稱,Kogan使用軟體抓取了27萬用戶信息經過用戶同意。問題只是他時候違反規則,將數據給第三方用來競選,而不是用於「學術研究」。按這個說法,數據泄露並不是臉書方面做錯了什麼,而是有人把以合法手段取得的數據又用於非法的目的。

但衛報和紐約時報所揭露的關鍵內容並非在於27萬「種子用戶」是否簽了同意協定,而是:Kogan利用僅僅27萬用戶的同意,竟然獲取到了五千萬用戶的詳細信息,而之所以能夠做到這點正是因為臉書在數據管理方面的巨大漏洞。對於這點,臉書的聲明中絲毫沒有提及,即沒有承認,也沒有否認,只是完全沒有提及。你看不到「五千萬」這個關鍵數字,以及對此的任何解釋。

下圖為美東時間2018/3/18凌晨00:46在臉書網站看到的有關聲明內容截圖

筆者還記得,在2016年大選時,認識的有幾位美籍華人朋友之前是共和黨,但卻受不了川普,也沒法勉強自己給希拉里投票,所以在自己珍貴的選票上寫上了「扎克伯格」的大名。他們或許覺得,這是個幽默的行為藝術。再回頭看看,卻有些令人哭笑不得。

索引

【1】紐約時報報道https://mobile.nytimes.com/2018/03/17/us/politics/cambridge-analytica-trump-campaign.html

【2】衛報報道 https://www.theguardian.com/news/2018/mar/17/data-war-whistleblower-christopher-wylie-faceook-nix-bannon-trump

【3】臉書聲明 https://newsroom.fb.com/news/2018/03/suspending-cambridge-analytica/

歡迎您留言發表高論


推薦閱讀:

從列表中原位刪除部分元素的正確方法
競技遊戲的匹配系統要做到儘可能使雙方實力接近有多難?
深度學習從入門到放棄之CV-video segmentation綜述
程序員工作後看演算法書有用嗎?效果怎樣?
Hypergraph st-最小割

TAG:數據挖掘 | 演算法 | 數據 | 真相 | 挖掘 | 大選 | 算法 |