大數據里笑看那些風花雪月的事
點擊標題下「大數據文摘」可快捷關注
翻譯:袁晶/校對:孫強(轉載請保留)
摘自時代周刊, 原文鏈接:
http://time.com/3302251/9-ugly-truths-big-data-ok-cupid-book/
Christian Rudder 是 Dataclysm 一書的作者, OkCupid的創始人之一。他深入研究數字,揭示愛、性別、種族和文化的一些內在關係。
(譯者註:OkCupid在線約會網站,居國外同類網站榜首)
序
大數據先生:象往常一樣你在酒吧喝過兩杯酒之後遇到一個新朋友, 於是又加上一杯。你靠近這位大數據朋友, 比平時更專註地聽他講。「數字足跡。」「信息時代。」你點頭微笑,即使你並不明白。「改變世界。」「未來。」你心領神會的樣子,即便沒有真正聽懂,你也偽裝得很好。
早晨醒來,你對大數據僅殘存些模糊的記憶,諸如它的標記線和些許流行語。你對這些詞的的理解也是隱約而模糊。
如果你仍在為理解這位大數據朋友而努力,大數據還有你不曾見過的另一面——它不再是承諾利用海量數字來優化,貨幣化或者系統化我們生活中的每一個部分,給我們帶來好處的那個大數據朋友。這個大數據先生會戳破畫皮,告訴我們一些並不希望知道的東西。就如同Christian Rudder在他的新書《數據變革:我們是誰(當我們認為沒有人在注意我們的時候)》(Dataclysm: Who We Are (When We Think No One』s Looking),)中所展示的那樣,這也許同樣值得追求。在我們提升人類的體驗之前,我們首先應該理解它。
Rudder,OkCupid的創始人之一,哈佛畢業的數據科學家,分析過數以百萬計的數據記錄並利用相關研究來理解我們如何搜尋和尋求愛情。但Rudder工作的魅力之處並不是那些發現多麼讓人震驚。相反,他深刻揭示了那些我們大多數人不願去想的問題:對於黑人女性和亞裔男性的種族歧視,或者「同性戀(Gay)」一詞是如何成為「我的丈夫是否是(My husband is)…」這一搜索條的No 1的谷歌搜索建議的。
這裡有9個關於性和約會的啟示,是Rudder藉助大數據在Dataclysm 這本書里闡述的。
1. 直男認為女性有一個保值期。
儘管女性傾向於尋求與她們同一年齡階段的男性,但OkCupid數據顯示,所有年齡的男性迄今都在尋找二十齣頭的女性。雖然男性通常會將女性的年齡要求設置為三十歲甚至更大,但事實上他們極少聯繫29歲以上的女人。
2. 直女表達性慾的可能性遠遠低於其它人口類型。
在OkCupid網站,6.1%的直男都很明確地是在尋找一夜情。對男同性戀者來說,這一概率為6.9%,女同性戀者為6.9%。而對於直女,則僅有0.8%。
3. 「大部分人過著默默而絕望的生活,帶著只在心中唱響的歌謠,走進墳墓。」(Most men lead lives of quiet desperation and go to the grave with the song still in them.--Thoreau)」
像任何優秀的數據科學家一樣,Rudder運用文學,在這裡是梭羅(Thoreau,譯者註:18世紀美國作家,《瓦爾登湖》的作者),來解釋人們的生活狀態。Rudder援引了一名Google工程師的描述,這位工程師發現搜索「男同性戀的描寫」(他實際的意思是同性戀色情)在每個州發生的概率為5%,社會科學家們估計同性戀佔世界人口的比重也差不多是這個比例。所以如果一個民意調查顯示,一個州有1%的人口是同性戀,那麼另外的4%可能仍然存在,只是沒有表現出來。(譯者註:4%,一個沉默而又壓抑的人群)
4. 搜索「我丈夫是否是同性戀?」一般都發生在那些同性婚姻極少能被人們所接受的州。
這裡有一個搜索數據測試,您可以自行查看:在谷歌上鍵入「我的丈夫是否?(My husband is)」並看看谷歌推薦結果。Rudder指出,這一搜索是在南卡羅來納州和路易斯安那州最為常見,這兩個州同性婚姻率的支持率同樣都是最低的。
5. 根據Rudder的研究,對女性而言,亞洲男人是最不中意的種族…
OkCupid上,用戶可以對彼此以1至5的分數打分。亞洲女性更有可能給亞洲男性以更高的評分,而其他種族的女性——黑種人,拉丁裔,白種人——給亞洲男性的評分介於1和2之間,低於她們通常評價男人的分值。黑種人和拉丁裔同樣面臨來自各自不同種族的歧視,而白人男性的評級在所有種族的女性中享有的評分都比較高。
(編者註:作為中國男人,我們是否應該對此嗤之以鼻!!!)
6. 同時對於男性而言,黑人女性是最不中意的種族群體。
幾乎是一樣的情形。亞裔、拉丁裔和白種人常常給黑人女性1到1.5分甚至更低,而黑人女性給於黑人男性的評分則與所有種族的女性給於黑人男性的評分更加一致。但亞裔和拉丁裔女性通常會獲得來自所有男性的較高評價,甚至高於白人女性。
7. 發送複製粘貼信息的用戶能更為有效地獲得回應。
OkCupid追蹤用戶在消息中輸入多少字元以及他們實際上發出了多少封電郵。(對於大多數用戶來說,每發送一個字元需要鍵入三個字元。) 在做這項分析時,Rudder發現高達20%的用戶設法利用5個或者更少的組合鍵發送成千上萬個文字,像是Ctrl+C,Ctrl+V,回車。更深層次的挖掘顯示,儘管從頭創建的信息表現會優25%,但複製粘貼信息就單位努力而言,收到了更多的回復。(譯者註:不要擔心別人笑話你抄情書)
8. 你的Facebook點贊顯示能夠顯露你的性別,種族,性取向和政治觀點。
英國的一組研究人員發現,單就基於每個人的Facebook點贊,他們便能夠以88%的準確率識別出一個用戶是男同還是直男;女同還是直女的識別準確率為75%;相應地,白人還是黑人,95%;男人還是女人,93%;民主黨還是共和黨,85%。
9. 相對而言,佛蒙特州不怎麼淋浴。
Rudder放送了一些沉重的信息供大家思考,所以最後一條談個稍微輕鬆的話題:一般來說,根據他的研究,在較為炎熱的州,人們淋浴多;而較為寒冷的州,人們淋浴則較少。不過,東北地區洗浴相對頻繁。但佛蒙特州是個例外。Rudder也不知道為什麼。你覺得呢?
Rudder還有一些非愛情領域的額外收穫…
——在7月里一個尋常的早晨,米特·羅姆尼在幾分鐘內便獲得了20000個Twitter關注者。
Rudder更進一步深入研究了社交媒體數據,顯示羅姆尼2012年7月22日上午8時獲得了18860個新的關注者。當天並沒有什麼特別有趣的事發生,關注者的激增大約200倍於他之前和過後得到新關注者的增幅。秘密何在?可能是購買了殭屍粉。羅姆尼並不是唯一這樣做的政治家——這是一種慣常的做法,Rudder 說,因為我們試圖強化我們的「個人品牌」。
——奧巴馬的當選和就職引發了谷歌搜索「n-gger」的一個高峰。
根據谷歌搜索數據,在2008年11月奧巴馬當選時,「n-gger」的搜索量在2008年11月奧巴馬當選時增加了一倍還多,隨後在一個月內迅速下降。當奧巴馬在2009年1月宣誓就職時,它同樣飆升,然後迅速下降。我們並沒有所謂的有組織的種族國家對話,Rudder暗示,這只是全國範圍內自發的民眾行為。
推薦閱讀:
※繼深度學習後,下一個熱點技術是遷移學習
※寒假學習打卡
※【銀行金融科技峰會實錄】如何加速商業銀行金融科技轉型?
※湖畔大學教務長曾鳴:數據智能三步走,數據化、演算法化及產品化
※O2O,大數據與智能化才是未來所在