大數據能拯救你的愛情生活嗎?

美國最浪漫的城市是哪一個?人們在情人節最喜歡買哪一種禮物?在給出在線約會產業的規模後,你就會對利用大數據創建更好的匹配系統感到不足為奇了。真正價值百萬美元的問題是:你能夠利用所有這些數字和數據點幫助你自己嗎?

如果你是單身,可能你已經考慮過在線約會。美國近11%的成年人已經嘗試過這種方式,你可能會在Match,OKCupid(美國在線約會社交網)或者任何一個約會網站上結束單身。一些約會網站試圖從一開始就操縱約會遊戲。他們會考慮哪個城市有最匹配的人,或者哪種工作將獲得最多注意力。Plenty of Fish(美國一個婚介交友網站)進行數據研究發現波特蘭是「美國最浪漫的城市」。同時,密歇根擁有最浪漫的單身漢,路易斯安那排名最後。他們通過500萬名單身漢的數據得到這些結論。最浪漫的地方由該區域單身漢在Plenty of Fish網站個人資料上列出的像「浪漫」,「在沙灘上散步」,「在篝火邊擁抱」等等(還有其他成千上萬的浪漫的短語)的百分比來決定的。

現在,網戀的數據呈現出了一些問題。因為用數據來定義「浪漫」(甚至是「愛」)這些抽象的概念是不容易的。網站資料列出的一些其他的浪漫事件包括:

牽手

泡泡浴

浪漫按摩

事實上,我們中許多人絕不會在資料中列出這些事件,來解決Plenty Of Fish是否發現最浪漫的州這樣的問題。很多人懷疑約會數據,並強調數據質量是最重要的。Christian Rudder,OKCupid的創始人之一,解釋道,數據行業面臨最嚴峻的問題不是發現演算法,而是發現正確的數據。

「我的直覺是,大部分用戶的輸入是真實的,但是人們誤解了自己。」 他說。即使一對夫婦在數學上看起來很匹配,但是在表面和不那麼完美的信息之間有一個水準,公司需要挖掘背後的信息,以獲得更真實的匹配。加州伯克利分校的一個研究發現,「81%的在線約會者不會給出體重、身高或者年齡相關的真實信息。」而且這很可能不是偶然! 例如,一些人喜歡把「古典音樂」作為興趣,但這僅僅意味著他們喜歡這種模糊的、理論性的方式。分析他們的個人播放列表,可以證明他們事實上只是關注這種流派。這為在線約會交友提供了兩點重要規則:

  • 1、真實的填寫調查問卷。這可能是令人沮喪的。你可能想要聽一些更有趣的。你也許會想,「快給我看匹配結果!」然而,這些演算法只能處理已給他們的數據。提供缺陷的信息將意味著更多的有缺陷的約會。
  • 2、可能的話,連接到其他網站。如果用戶願意給予公司掃描他們的Spotify, Netflix, Facebook或者搜索記錄許可,大量更可靠的數據就可以被使用。好的演算法不會僅僅根據共同的好友或者你們是否都喜歡唐頓修道院來匹配。他們能創建一些新的模型尋找匹配。

一個出人意料的方法是比較用戶的競爭對手。如果兩個用戶有類似的音樂品味並且和相似的人聊天,那麼來自其中一個人的數據可以幫助另一個人匹配。這也可以幫助搜索引擎確定自己的個人資料對其他用戶有多大用處。演算法也能通過比較相似的用戶和他們的受歡迎程度來決定你的資料是否有吸引力—這聽起來有些嚇人。

約會數據必須被更多的創造性的使用

OKCupid的負責人透露,數據分析得出了一些令人驚訝的結果。通過比較OKCupid用戶在網站平台上結束關係的數據,他們發現了首次約會的人都會提出以下3個問題:

1、「你喜歡恐怖片嗎?」

2、「你曾經獨自一個人到另一個國家旅遊嗎?」

3、 「辭職不幹了而去船上生活豈不是很有趣?」

看似無關緊要的問題比許多無用的數據揭示了更多關於個性和生活軌跡的行為。艾米·韋伯的ted演講,題為「我是如何入侵在線約會」,已經有450萬忍觀看。這不僅是因為人們找到了有趣的話題,他們可能有相似,或是相反的網上交友的經歷。用戶被問到的問題,雖然有用,但不能完整的描述一個人。她的所作所為是逆向工程系統,並創建自己的數據點找到如意郎君。她用72個數據點找到匹配,並且它成功了!她已經成功找到大量的樣本。但不幸的是,他們不喜歡她,因為她所填寫的個人資料和興趣。這導致她去研究是什麼讓其他用戶更受人喜歡和歡迎。得出的結果範圍是平均每條消息單詞統計(97),平均通話時間(23小時)。當然,還有些照片。問題不是缺乏數據,而是錯誤的數據。

數據白痴應該如何向情人展示自己的興趣?

通過利用數據。國家零售基金會很樂意分析消費者在情人節花的錢。在過去,他們發現折扣店和百貨商店是主要消費的地方。他們甚至準確的得出2015年慶祝情人節的平均支出是87.94美元。他們知道45歲到54歲的人是最大的消費人群,這些人創造更多的音樂播放列表。這是通用類型數據,但並不一定告訴戀人該做什麼。

就像密歇根不應該因為看似「浪漫」的語句就被認為是最浪漫的州,數據可以幫助情侶如何變得更有創意。StatisticBrain統計顯示情人節有198000000束玫瑰被購買。最多的禮物是卡片,緊隨其後的是糖果、晚餐、鮮花和珠寶,禮品卡甚至榜上有名。在去年2月13日1800Proflowers.comflowers.com的鮮花購買數量達到峰值。同樣的情況發生在123greetings.com(一個電子賀卡網站)。對全世界的戀人來說,可以利用數據找到愛和維持愛情。關鍵是要創造性地、正確地使用它。

數據分析網翻譯小組翻譯,翻譯成員——Blanche,具有數學與統計背景,碩士畢業在一家通信運營商做數據分析與建模,愛運動愛音樂,關心大數據,立志做好一名數據挖掘攻城師。

數據分析網(數據分析網-大數據資訊、觀點、技術研究中心),國內數據分析第一門戶,提供大數據新聞資訊、前沿技術、業界觀點的信息平台。

推薦閱讀:

R|ggplot2(四)|stat_ geom_ 和position
急速入門Python數據分析(2)--矩陣回顧

TAG:数据分析 | 大数据 |