人人都在說謊，怎樣才知道誰騙了你？

02-02

文/方貞碩

在點開這篇推送文章之前，你估計剛剛刷完朋友圈：小甲又去國外出差了，小乙又去吃了一個網紅下午茶，小丙又在秀恩愛。也許你正想翻個白眼，感嘆為什麼別人的生活都比自己的風生水起。

先別急，你有沒有想過其實朋友圈充滿了謊言？小甲也許剛剛被老闆罵，小乙的下午茶可能其實很難吃，小丙也許剛和男朋友大吵一架。剛剛發了幸福的朋友圈的人，可能轉身卻在電腦上搜索「抑鬱症該怎麼辦」。

在賽斯.斯蒂芬斯-戴維維茨（Seth Stephens-Davidowitz ）五月出版的新書《人人說謊（Everybody Lies）》里，就談到了社交媒體數據的欺騙性：因為愛面子，人們往往會把生活粉飾的多姿多彩。

書中還提到，除了社交媒體，人們在很多場合，對於很多問題都會撒謊，尤其是對敏感問題。當被問到人們對於仇恨、墮胎、抑鬱、性這些問題的真實想法時，我們得到的往往是謊言。

那麼到底怎樣才能了解人們的真實想法呢？傳統的方法如問卷調查，費時費力，樣本量小，又具有欺騙性，得到的結果很不可信。

但隨著科技和大數據的發展，新的研究方法變成了可能。賽斯就找到了一個更真實可靠，樣本量全面的新研究方法，即研究谷歌搜索數據。

不同於傳統調查的局限性，當人們搜索各種信息或尋求幫助時，搜索數據能真實的告訴我們他們想要什麼，喜歡什麼，或是害怕什麼。賽斯更是認為，搜索數據是有史以來最重要的研究人類心靈的數據。

賽斯本科畢業於斯坦福大學哲學系，畢業以後因為受到暢銷書《魔鬼經濟學》的影響，轉修經濟學，並取得了了哈佛大學的經濟學博士學位。

他曾在谷歌擔任數據分析師，專門研究如何用搜索數據解釋實際問題；現在他是《紐約時報》的特邀專欄作家，並擔任沃頓商學院的客座講師。

這本《人人說謊》在五月份剛出版就上榜蘋果「五月好書」榜，並在 Goodreads 上得到 4.12/5 的好評。

賽斯的這本書結合了納特.西爾弗（Nate Silver）《信號與雜訊（The Signal and the Noise）》的嚴謹分析，馬爾科姆.格拉德威爾（Malcolm Gladwell）《異類（Outliers）》的故事性，和史蒂芬.列維特（Steven Levitt）《魔鬼經濟學（Freakonomics）》的幽默，絕對能讓你在學到各種關於大數據的乾貨的同時，還能對生活中的很多問題有新的認識和思考。

書中從四個方面介紹了為什麼大數據，尤其是搜索數據，能作為顛覆傳統心理學和社會學研究的創新研究方法：

1. 數據的獨特性

2. 數據的真實性

3. 數據的樣本量大

4. 數據用於研究因果關係

1. 數據的獨特性

大數據之所以強大，首先在於數據的獨特性。在傳統的心理學，社會學，甚至是經濟學的研究中，最常見的數據往往都是數字，或者小範圍的問卷調查和實驗結果。

然而在信息時代下，生活中所有的一切都被記錄下來，成為了可供研究的數據。

除了近十幾年才出現的搜索數據，網路上的文字，圖片，甚至生活中人們說的話，都可以作為數據進行研究。

作者曾研究衛星航拍圖片，發現發展中國家夜晚的燈光數量和該國的 GDP 有正相關性。他還通過研究菲律賓街頭人們拍攝的手機照片，幫助世界銀行預測該國非法香煙的交易量。

相親其實也有獨特的數據：在約會的時候，人們往往通過身高，長相，家庭背景來預測兩人約會是不是成功。賽斯則利用人們在約會時說話的內容這個新的數據，來判斷兩人是不是來電。

他的研究顯示，如果一個女生在約會中話音溫柔，或者時常談論自己，就表示她對對方有意思。

但是如果她總是說「可能」「沒準」這種意思含糊的詞，那麼就說明她不怎麼喜歡對方。所以下次你去相親的時候，如果聊天的話題大部分圍繞女生，就說明這次相親有戲。

但如果你們的談話中有太多疑問句，就可能很難有第二次約會了，因為問問題往往是兩個人感到尷尬的表現。

2. 數據的真實性

搜索數據相對於其他數據最大的優勢，就在於真實性。人們往往潛意識裡會在問卷或有實驗人員參與的實驗里撒謊，尤其是面對種族歧視，性，暴力這種敏感問題。

但是在網上搜索信息的時候，我們通常是一個人，每個個體的搜索數據又都是加密的，所以就往往更能放心大膽的表達自己的真實想法，而不用擔心別人的道德評斷。

本書作者最著名的研究就是關於仇恨和種族歧視的。

在 2006 年發生在加州的穆斯林槍殺案之後，奧巴馬發表的演講在全美進行實況轉播，演講動人煽情，教導大家不要仇恨與自己信仰不同的人。

美國的各大媒體都對這篇演講讚賞有加，認為這個演講在消除種族仇恨上起到了非常正面的作用。

然而賽斯卻發現了完全相反的結果。他通過研究演講轉播時人們對種族仇恨關鍵詞的實時搜索（比如「殺死穆斯林」），發現奧巴馬近乎說教式的演講一度導致人們更多的搜索負面字眼，仇恨情緒顯著上升。

但在演講的最後，當奧巴馬提到在美國的穆斯林有很多是國家英雄和運動冠軍以後，關於「殺死穆斯林」的搜索則立刻下降，取而代之的是搜索「穆斯林運動員」。

顯然，人們的好奇心被激發，促使他們更進一步的去了解了另一個信仰的人。

作者把這篇關於奧巴馬演講的文章在《紐約時報》發表以後，引起了各界媒體的廣泛注意，甚至傳到了白宮內部。

在奧巴馬關於此次事件的第二次演說時，他甚至借鑒了賽斯的研究結論，更多的強調了穆斯林人在美國扮演的角色，激起大家的好奇心，而不再僅僅是對人們進行傳統的說教。

3. 數據的樣本量大

談到數據分析，就不能不談到現在最流行的「大數據分析」，即「Big Data」。賽斯認為，大數據分析的優勢不僅僅是因為數據量大，結果更可信；更重要的是，因為擁有大量的數據，所以單拿出某一小範圍數據的時候，也能擁有全面而不偏頗的數據，得出以往用小樣本數據不能得出的結論。

出生在美國是不是更容易成功？（此處成功的定義是出生於底層 20% 收入的家庭，但成為最富裕的 20% 人口）如果研究國家整體經濟和個人成功的關係，美國出生的人好像並不能更輕易的突破階層限制，獲得成功。

「美國夢」是騙人的嗎？賽斯指出，以往研究所用的經濟數據樣本量小，且都是以國家為單位的，經濟數據是所有州的平均數據。

但是他通過細分到美國各州以及各個城市的經濟數據發現，美國有一些城市人們突破收入階層的概率遠遠大於平均數（比如加州聖何塞和華盛頓 DC ）有一些遠遠小於平均數（比如芝加哥和夏洛特）。這個規律要是沒有大量的各個地點的經濟數據，是不容易被發現的。

當數據樣本量足夠大的時候，研究就能細化到某個地點，某個時間，甚至是某個人。大數據目前最流行的一種應用叫 Doppelgangers ，即「完全相同的人」。

亞馬遜，奈飛（Netflix）等電商或視頻網站，通過分析大量的用戶數據，就能找到和你在教育，文化，喜好都近乎相同的人群，並且根據他們的喜好給你做推薦。

下次再看到電商推薦了一個正合你意的產品，或是你剛好想看的視頻，要知道，在這茫茫大數據的人海中，其實有那麼一個他，和你幾乎完全相同。（話說這些公司是不是應該開展一下媒婆的業務吶～）

4. 數據用於研究因果關係

在本書的最後，作者還介紹了大數據的應用。大數據分析不僅能證明兩個數據的關聯性，還能衍生出其他的研究方法，用於證明數據的因果關係。

大家最不陌生的研究方法應該就是 A/B 測試了：在網站頁面上放兩個不同版本的「購買」按鈕，通過對大量用戶分別的測試，就能知道哪個按鈕能導致更多的購買。

美國前總統奧巴馬選舉的成功的一個重要因素，就是引進了很多的高科技，其中就包括對選舉網站進行的 A/B 測試。

下面三個網站版本有不同的背景圖片和按鈕文字，你能猜出哪個版本有最高的點擊率嗎？

第一版：

第二版：

第三版：

答案就是：第三個版本比其他所有版本有高出 40% 的點擊率。僅僅通過改變背景圖片和按鈕的文字，奧巴馬就多籌集了 6 千萬美金的競選資金。 6 千萬！美金！

看了這麼多，你一定也感受到了本書涵蓋話題的廣闊。作者的研究包羅萬象，從種族歧視到相親，從性取向到籃球運動員的成功，充分展示了大數據分析的潛力。

在信息時代，通過對搜索數據等新數據的研究，我們將能更準確的了解關於人性的真相。

我們在判斷問題時，往往局限於自己或周圍人的有限經驗。傳統的社會學研究方法也有同樣的局限性。

在大數據時代，我們更應該客觀的看待事實，不能想當然的下結論，需要多多分析，從不同的角度詢問問題本質（ask the right questions）。還有，下次在朋友圈裡看到人人都很開心的時候，想想其實他們都在撒謊，心裡有沒有更好過一點吶？