助特朗普勝選、英國脫歐,深扒FB醜聞背後的神秘數據公司如何玩轉人心

大數據文摘作品

作者:錢天培、邱猛、龍牧雪、魏子敏

美國時間3月19日,星期一,Facebook股價暴跌7%,一天內市值蒸發近400億美元。在「數據泄露醜聞」發酵之下,這一暴跌並不意外。

上周五,特朗普(Donald Trump)聘用的一家政治AI公司劍橋分析(Cambridge Analytica),被曝非法將大約5千萬Facebook用戶的信息用於大數據分析,從而精準刻畫這些Facebook用戶的心理特徵,並向他們推送定製廣告,甚至假新聞。

這些用戶信息由劍橋大學心理學系講師Aleksandr Kogan通過App「thisisyourdigitallife」以學術研究為目的收集,但數據卻被轉移至第三方,即劍橋分析公司。

令人不解的是,Facebook在2年前就已得知Kogan的不當行為,並曾要求其銷毀所有數據,但並未採取進一步行動,直到被媒體大規模曝光。

這起醜聞持續發酵,甚至被稱作是「Facebook、谷歌等科技巨頭結束壟斷的轉折點」。

而據海外媒體VICE一年前的一篇調查報道,這家政治AI公司或許還曾用同樣的手段助推了「英國脫歐」事件。

心理學+大數據=顛覆世界

要了解這家公司的「數據魔術」,讓我們先來了解其涉及到的一門有趣的學科——「心理測量學」。

大數據營銷和個性化推薦早已不是什麼新鮮事,但這家在當時尚不知名英國公司的分析方法的確有所不同。他們分析的是人的心理特徵,而不是人口統計學特徵。

基於人口統計學的選舉拉票活動基於非常有限的數據信息:所有的女人因為她們的性別收到同樣的信息,或者所有的非裔美國人因為他們的種族收到同樣的信息。而當其他的選舉活動還依賴於人口統計學的信息時,劍橋分析已經採用了心理測量學分析了。

「基於性別或種族來拉票的想法是荒謬的。我們的預測基於大五類人格(OCEAN)模型。」

劍橋分析將美國的人口分為32類性格特徵,並集中關注17個州。基於一個App應用,每一位特朗普競選團隊的遊說者都可以精準了解到每棟房子中的住戶的性格、喜好,總之,他們對你會不會投票了如指掌。

早在2016年9月,劍橋分析公司的CEO Alexander Nix就曾在Concordia Summit(迷你版的世界經濟論壇)上公開分享大數據和心理測量學助力選舉的秘訣,演講題目是:The Power of Big Data and Psychographics in the Electoral Process。

戳這裡看演講視頻??

undefined_騰訊視頻

這些都發生在劍橋分析被曝光非法使用Facebook用戶數據之前。

醜聞發生後,被曝幫助劍橋分析公司搜集數據的Aleksandr Kogan的簡歷已被迅速從劍橋大學官網撤下,只剩網頁快照。

谷歌搜索「Aleksandr Kogan」結果,劍橋大學官網介紹頁無法打開

網頁快照顯示Aleksandr Kogan任職於劍橋大學心理學系,研究領域涉及多種情感和心理健康,研究方法包括利用大規模數據集。

心理學和大數據,就這樣被聯繫到了一起。

而早有人嗅到了可疑氣息。

2017年1月,海外媒體Vice曾發出一篇原載於Das Magazin的德語文章,作者Hannes Grassegger和Mikael Krogerus。

文章詳細報道了劍橋大學心理測量中心的另一位研究員Michal Kosinski如何開發基於Facebook點贊信息的大五類人格測試模型,而和劍橋分析有業務往來的Kogan被認為從Konsinski處獲得了該研究方法,Konsinski亦表示了對Kogan及其與政治分析公司之間聯繫的擔憂。

文章鏈接如下,感興趣的讀者可以自行查閱:

motherboard.vice.com/en

Michal Kosinski現任斯坦福大學教授

劍橋大學心理測量中心:五類人格

本質上,「大數據」意味著我們在線上和線下的一切活動都會留下數字痕迹。我們的每一筆刷卡消費,每一次谷歌搜索,揣著手機時我們的每一個移動,每一次在社交媒體上點贊,都會被記錄下來,並可能被用於針對性的營銷。

舉個例子,在我們剛搜索完「降血壓」後,屏幕上就可能彈出降壓藥物的廣告。

特朗普總統競選活動的幕後推手,劍橋分析(Cambridge Analytica),正是這樣一家「大數據」公司。而隨著層層剖析,多家媒體也指出,它可能也曾參與英國脫歐。

讓我們從2014年的劍橋大學心理測量中心開始說起。

心理測量學是一個由數據驅動的心理學分支,有時也被叫做心理圖像學,主要致力於研究心理上的特徵,比如人格。上世紀80年代,心理學家發展出了一種基於五種人格特徵來評估人類的模型,就是著名的「大五類人格測試」。

「五類」人格分別是:

  • 開放性(你對新的體驗有多開放?)
  • 嚴謹性(你有多追求盡善盡美?)
  • 外向性(你有多愛好社交?)
  • 宜人性(你有多體貼,多容易合作?)
  • 神經質(你很容易沮喪嗎?)

它們也被簡稱為OCEAN,即英語單詞(Openness, Conscientiousness, Extroversion, Agreeableness, Neuroticism)的首字母縮寫。基於這些維度,科學家可以對人格類型做一個相對精準的評估。這些預估包括一個人的需求和恐懼,以及未來行動。

「大五類人格測試」已經成為心理測量的標準技術。但是,在很長一段時間裡,這種手段的執行難度在於數據收集,這是因為它涉及一份複雜的、高度私人性質的問卷的填寫。

然後,網路出現了。接著是Facebook。再接著是Kosinski。

看懂一個人只需要68個贊

Michal Kosinski2008年進入劍橋大學心理測量中心攻讀博士,這是該領域在世界範圍內最古老的研究中心之一。入學後,Kosinski加入了他同窗David Stillwell(現在是劍橋Judge商學院的講師)的項目組。那時Facebook還沒有如今的規模。

Kosinski項目組「我的人格(MyPersonality)」App能讓用戶參與填寫不同的心理測量問卷,包括大量來自「大五類人格測試」問卷上的心理測試題(如「我容易驚慌」,「我愛反駁其他人」)。基於這項評估,用戶會收到一份「人格側寫」報告,內容包括用戶的「大五類人格」數值,用戶可以自行決定是否授權將他們的Facebook個人簡介分享給研究人員。

一開始Kosinski以為只會有幾十個大學朋友來填問卷,沒想到不久之後,幾百、上千,甚至幾百萬的人參與了進來,展現了他們的內心世界。突然間,這兩個博士生擁有了有史以來最大的、將心理測量數據和Facebook自我簡介相結合的一套數據。

通過問卷,心理測量學家計算出答題人的「大五類人格」數值。然後,Kosinski的團隊將計算結果和測試對象的其他網路數據進行對比,比如他們贊了什麼,在Facebook上分享了或發了什麼,或他們填的性別、年齡和住址。這種方法使研究人員能夠把信息串聯起來,使其相關。

基於簡單的網上行為,他們就能得出相當可靠的推演。

舉幾個例子,「贊」了化妝品牌MAC的男性有較高的可能性是同性戀;同性戀最好的指標之一是是否喜歡Wu-Tang Clan(美國Hip-pop組合)。Lady Gaga追隨者們極有可能是性格外向的人,而那些「贊」了哲學相關內容的人則更可能偏內向。

Lady Gaga演唱會,圖片來自網路

雖然,任何一個單獨的此類信息都不足以讓他們得到可靠的預測,但綜合了幾十、幾百、或上千的個體數據之後,他們的預測就會變得非常準確。

2012年,平均憑藉一個Facebook用戶的68個「贊」,Kosinski模型就能夠估計出他們的膚色(準確率為95%)、性取向(準確率為88%)和黨派(民主黨或共和黨,準確率為85%)。

除此之外,他們的智力、宗教信仰,以及酒精、煙草和毒品的使用情況,全都可以被預測出。從這些數據入手,這一模型甚至有可能推測出某人的父母是否離異。

點「贊」數超過300個時,Kosinski甚至能比實驗對象更了解他們自己。

就在Kosinski發表了這些發現的當天,他收到了兩通電話:一個訴訟威脅和一個工作邀請。這兩個都來自Facebook。

僅僅數周之後,Facebook的「贊」的功能就被默認為僅自己可見。而在那之前,默認設置是點「贊」對所有人可見。不過,這樣的變化不會對數據採集者造成什麼困難:很多的App和網上的測驗都會要求用戶關聯Facebook賬戶,並允許其訪問用戶私人數據,以此作為進行人格測試的前提條件。

更令人擔憂的是,Kosinski和他的團隊現在已經能夠單純地從一個人在Facebook上的頭像或聯繫人的數量(外向性的一個很好的指標)推算出五類人格數值。

同時在線下,我們也留下了不少痕迹。舉個例子,我們手機內置的運動感測器透露了我們的移動速度和移動距離(和情緒的不穩定性相關)。Kosinski總結道:我們的智能手機是一份我們一直在填寫的巨大問卷,不管是有意識地還是無意識地。

最重要,同時也是最關鍵的是,這種方法反過來也奏效。數據不僅能用來得到你的心理特徵側寫,也可以將數據來源中的人群進行歸類和搜索:可以找到所有焦慮的父親、憤怒的內向的人,抑或甚至是搖擺的民主黨員。本質上,Kosinski發明的是某種類似於人類搜索引擎的東西。他開始認識到他的「作品」的潛能,但同時也看到其內在的危險。

從英國脫歐開始說起

大約在2014年年初,一個名叫Aleksandr Kogan的心理學助理教授找到Kosinski,說他代表一家對Kosinski的方法感興趣的公司來詢問,想要訪問MyPersonality資料庫。一開始,Kosinski和他的團隊考慮了這個提議,因為這意味著能給研究中心帶來一筆可觀的收入。可是之後他猶豫了,因為Kogan透露了公司的名字:SCL,Strategic Communication Laboratories。

「(我們是)最佳的選舉管理機構」,公司的網站上這樣寫著。SCL依靠心理建模提供銷售(服務)。公司一個核心特色是:影響選舉。

這到底是一家什麼公司?這些人又在計劃些什麼?

在那時,Kosinski不知道的是:SCL是一組公司的母公司。到底誰擁有SCL?SCL有哪些分支?因為其複雜的公司結構,這些都不得而知。

2013年,SCL分拆出一家新公司用以參與美國大選,名為劍橋分析(Cambridge Analytica)。

進一步調查後,Kosinski發現Aleksandr Kogan已經秘密地註冊了一家公司,並和SCL有生意往來。從一份2015年12月刊登在衛報(The Guardian)的報告來看,SCL已經從Kogan那裡掌握了Kosinski的方法。

Kosinski懷疑,Kogan的公司可能已經仿製了基於Facebook點贊數據的大五項類人格測量工具,並將它賣給這家選舉影響公司(SCL)。他立刻與Kogan中斷聯繫,並向中心主任報告了此事。此後,Aleksandr Kogan搬去了新加坡,結婚,並將自己的姓改成了Spectre。

約一年後,2015年11月,由Nigel Farage支持的更為激烈的兩次Brexit政治運動「脫歐」(Leave.EU)聲稱他們委託了一家大數據公司來支持他們的網上活動:這家公司正是劍橋分析。劍橋分析的核心優勢是新的政治營銷,即微瞄準(micro-targeting),依靠五項人格(OCEAN)模型從用戶的電子足跡中測量出他們的人格。

英國脫歐,圖片來自網路

「英國退出歐盟」的公投結果宣布後,Kosinski不得不解釋說他和劍橋分析公司沒有任何聯繫,儘管這家公司名字中有「劍橋」二字。到底劍橋分析和英國脫歐運動有多深的牽連,我們不得而知。劍橋分析自己也不會去談論這樣的問題。

劍橋分析CEO曾公開分享助力選舉的秘密武器

過了幾個月,2016年9月,僅僅在美國總統大選的前一個月,在紐約Concordia Summit(世界經濟峰會的迷你版)會議上,劍橋分析首席執行官Alexander Nix被邀請做了個演講(演講視頻見這篇文章開頭)。多數出席者都知道這就是特朗普新任的數字戰略家。

與此同時,希拉里·柯林頓則嚴重依賴於歷史上首位「社交媒體總統」奧巴馬的經驗方法。她不僅擁有所有民主黨人士的郵件列表,任用了來自BlueLabs的最前沿大數據分析師,而且得到了Google和DreamWorks的支持。

在2016年6月,當特朗普宣布聘請劍橋分析參與他的選舉活動時,華盛頓的當權者們都嗤之以鼻。這家公司主要由美國的軟體億萬富翁Robert Mercer(同時是2014年自然語言處理頂會ACL終身成就獎獲得者)秘密贊助。而他女兒Rebekah也在後來被報道為劍橋分析的最大股東。

在演講中,Nix解釋說,到目前為止,選舉拉票活動的策劃都是基於人口分布的、而不是基於心理學特徵。劍橋分析的大數據營銷技術是基於三個要素:利用大五類OCEAN模型的行為科學,大數據分析和廣告定位。廣告定位即個性化廣告,它通過儘可能找准消費者的個性,採取相應的廣告策略。

「在劍橋,我們能夠用一個模型來預測每一個美國成年人的人格。」Nix透露。

Nix坦率地描述了整個分析過程。首先,劍橋分析公司從各種不同的渠道(數據經紀公司Acxiom和Experian等)購買了人口數據,如土地登記、汽車數據、購物數據、獎勵卡、俱樂部會員、雜誌購買、教會活動數據。假如你想知道猶太婦女們住在哪裡,以及她們的電話號碼,你可以簡單地購買這些信息。

劍橋分析將這些數據和共和黨選民名冊以及網上數據結合起來,並且計算出五大人格特徵輪廓。數字蹤跡在處理器中變成了為現實的人,這些人具有真實的恐懼、需求、興趣和住所。

這個方法看起來和Michal Kosinski曾經研發的方法非常相似。劍橋分析也運用了社交媒體的調查和Facebook的數據。「我們描繪了共2.2億人的性格特徵。」Nix說道。

「這是我們為Ted Cruz選舉活動準備的數據表。」

左邊是圖表;右邊是愛荷華州地圖,Ted Cruz在愛荷華州贏得了大量的選票。在地圖上,有成千上萬的小紅點和藍點。Nix縮小了條件範圍:「共和黨」,然後藍點消失;「仍未被說服的」,更多的點消失了;「男性」,等等等。最後,只有一個名字還保留著,包括了年齡、住址、興趣、個性和政治傾向。

那麼,劍橋分析是如何為這個人定製他所看到的政治消息的呢?

Nix展示了如何用心理特徵給選民進行分類以區別對待。例如,同樣是關於美國第2次修正案持槍權利的報道,會被配以不同圖片。「對於一個高度神經質和謹慎的人,我們會展示入室盜竊以及持槍的保險政策威脅。」Nix左邊的一個圖像顯示了入侵者砸窗的手。

「相反,對於一個傳統並和藹可親的觀眾——那些關心傳統、習慣和家庭的人,我們則會展示這張圖。」Nix右邊的圖像是一個男人和一個孩子站在夕陽下,手裡拿著槍,正在射擊野鴨。

「特朗普的每一條選舉信息都是數據驅動的」

據Alexander Nix回憶,在特朗普和柯林頓的第三次總統辯論之日,特朗普的團隊為他的論點測試了175000種不同的廣告語,以便通過Facebook分析找到最合適的版本。

不同信息的區別其實是很微小的。為了用最佳的心理學方式定位到接受人,他們採用了不同的標題、顏色、字幕,附帶了一張照片或視頻。這種微調的方式可以觸及到最小的群體,Nix在採訪中說,「我們可以為某一個村莊、公寓、甚至個人定製消息。」

例如,在邁阿密的某個小區,特朗普的競選活動為居民提供了柯林頓基金會在海地地震後賑災失敗的消息,以阻止他們投票支持希拉里。這是特朗普競選的一個目標:讓潛在的選民,包括搖擺不定的左翼選民、非裔美國人和年輕女性,遠離投票箱,也就是「抑制」他們的投票。

一位高級競選官員說,這些以Facebook付費廣告形式傳播的「黑帖」只能由特定的用戶看到。這些帖子包括針對非裔美國人的視頻,比如某一條視頻指出希拉里稱黑人為獵食者。

Nix在Concordia峰會上做演講時指出,傳統的地毯式廣告已死。在演講結束前,他宣布:在Ted Cruz退出競選後,公司正在幫助另一位總統候選人競選。

特朗普,圖片來自網路

特朗普的數字化部隊非常精準地瞄準了美國民眾。但這是看不見的,因為他們的信息較少通過主流電視傳播,更多的則是在社交媒體或數字電視上出現的個性化的信息。

彭博社記者Sasha Issenberg在訪問聖安東尼奧的時候,驚奇地注意到這裡是特朗普的數字競選的基地。

入駐特朗普競選團隊的劍橋分析只由十幾個人構成,他們7月從特朗普手中收到100000美元,8月收到250000美元,而9月收到了500萬美元。據Nix透露,公司總共賺了1500萬美元。(該公司在美國成立,其中有關個人資料發布的法律比歐盟國家更寬鬆。歐洲的隱私法要求只有經過個人「選擇同意」後才能泄露個人信息,而在美國則允許個人信息泄露,除非個人「提出反對」。)

這些數字手段是前所未有的:2016年7月起,特朗普競選團隊的每個遊說人都被提供了一個App,他們可以確定任意一幢房子里的居民的政治觀點和性格類型。

這一程序提供商和「英國退歐」人士使用的程序是相同的。特朗普的工作人員只選擇訪問那些App預測會接受他們遊說的人。拉票準備是根據居民的人格類型進行的。反過來,遊說團隊會把他們遊說過的人的反應反饋到那個App中,而新的數據由此流入了特朗普競選團隊的資料庫中。

而這並不是什麼新鮮事。

民主黨也做了類似的事情,不同的是,他們並沒有依賴心理學分析。劍橋分析的厲害之處在於,他們將美國的人口分為32類性格特徵,並集中關注17個州。正如Kosinski所發現的,喜歡MAC化妝品的男人更可能是同性戀者。該公司發現,偏好於美國製造的汽車的人,是特朗普的潛在選民。這些研究結果表明特朗普的訊息在那裡發揮了最好的效果。在數據分析的基礎上,他們決定在競選的最後幾周里關注密歇根和威斯康星州。而特朗普就此成為了實施大數據模型的媒介。

但心理測量方法在何種程度上影響了選舉的結果?

美國大選後,相關研究者也進行了研究來回答這一問題:初步結果是驚人的,研究表明人格定位十分有效。將不同的消息對應到不同性格特徵人群的方法,使得營銷人員可以為Facebook上的廣告活動吸引最多63%的點擊率,並促成1400次以上人們的決策轉變。他們進一步展示了個性化營銷的可擴展性——他們發現大多數的Facebook頁面推廣產品或品牌都受個性的影響,大量的消費者可以通過一個單獨的Facebook頁面被準確定位 。

和希拉里·柯林頓相比,特朗普在數字競選的投入遠高於電視競選。Facebook最終被證明是最好的競選武器和最好的競選支持者。

不管答案如何,無法避免的結果是,世界已被翻轉。

大不列顛離開了歐盟,特朗普當選了美利堅合眾國總統。而在斯坦福,反對把心理學定位運用到政治領域的Kosinski持續收到了指責他的郵件 。

他只能搖頭說:「這不是我的錯,我沒有製造出炸彈。我只是證明了它的存在。」


推薦閱讀:

TAG:唐納德·約翰·特朗普DonaldJTrump | Facebook |