數據的本質和價值

為什麼大數據這麼火爆?從大數據技術到數據內容,從開源產品和創業公司,從大數據風控到精準營銷,各種大數據技術、大數據場景、大數據創業公司,層出不窮,讓人應接不暇。為什麼我們能享受越來越智能的服務?打開餓了么下個單就能在半小時內吃上可口的美食,打開今日頭條看到的都是你感興趣的新聞,在你信用卡剛要刷爆的時候銀行告訴你給你調高了額度,這些智能服務正在一步步融入我們的生活。為什麼這麼多公司不遺餘力的收集用戶的數據?身份信息、聯繫方式、性別、年齡、交易行為、興趣偏好、手機型號、手機中裝了什麼APP、地址位置、WiFi等等,但凡是能收集的數據都已經被別人收集走了。

這一切的背後都是因為數據,擁有和使用數據能創造出更好的用戶體驗、產生巨大的商業價值。下面我們來簡單地探討一下數據的本質是什麼,它為什麼能產生價值,要怎麼產生價值。

要想研究數據的本質,首先我們要知道數據是怎麼來的。塗子沛老師在《數據之巔》一書中把數據的來源的總結為三方面:測量、記錄和計算。「測量的數據」,就是所謂「有根據的數字」,是指數據是對客觀世界測量結果的記錄。文本、音頻、視頻本身就是已經是信息,其來源也不是對世界的測量,而是對世界的一種記錄,因此稱之為「記錄的數據」。有了測量的數據和記錄的數據,便可以進一步在此基礎上進行加工處理,由此產生「計算的數據」。

「測量的數據」和「記錄的數據」兩者都來自於現實世界,是對現實世界的觀測和描述,用於在計算機中構建現實世界的數字版本。比如現實世界中有一張桌子,我們對桌子進行觀測,得到長2米,寬1.5米,高1米,桌面木材製造的,有4條桌腿,是金屬材質的,那麼這張桌子的數據版本就是:{物品名=桌子,長=2m,寬=1.5m,高=1m,桌腿數=4,桌面材質=木材,桌腿材質=金屬}。這個數字版本的桌子和現實世界的桌子保持著某種對應關係,如果只對桌子觀測一次,那麼是一對一關係;如果對桌子觀測多次,那麼是一對多關係(一張現實世界的桌子,多個數字版本的桌子);如果現實世界有多張同樣的桌子,只挑其中一張進行觀測,那麼就是多對一關係(多張現實世界的桌子,一個數據版本的桌子);最後一種情況,現實世界有多張同樣的桌子,有多個人觀測,每個人挑其中一張觀測,這樣就產生了多個數字版本的桌子,每個都對應現實世界的多張桌子,即N對N關係。因為這種對應關係的非常複雜,大家很難直觀地看到數字世界和現實世界的對應關係,以致於經常把兩者割裂成兩個獨立的世界。

雖然數字版本是基於對現實世界的觀測結果構建的,但數字版本通常會對現實世界進行一定的抽象。具體的抽象程度代表了數字版本能多麼真實的反映現實世界。一方面看你的實際需求,比如在構建用戶的數字版本(也即「客戶畫像」)時,如果是服裝電商,那麼身高、胖瘦、臉型和髮型這些數據都重要,但如果是3C電商,這些數據就不那麼重要了。另一方面看是否能通過有效的方式獲取到你想要的數據,還是上面這個例子,身高和胖瘦比較好獲取,通過用戶所選衣服的尺碼就能大致得到,但臉型和髮型卻很難得到,讓用戶直接填寫,或者讓用戶上傳照片再通過圖像識別得到,這兩種都不容易實現,不是有效的獲取方式。

既然數字版本是對現實世界的抽象,與現實世界存在著某種對應關係,那麼對數據版本的某些操作就等同於對現實世界的操作。比如想知道整個地區有多少人,在現實世界中需要挨個數人頭,在數字版本中只要寫一條SQL語句就搞定了。又比如從A地道B地有三條路,想知道哪條路更近,在現實世界中需要把每條路走一遍並記錄行走的時間,在數字地圖中只需簡單計算三條路的距離。

由此可知,如果有了「測量的數據」和「記錄的數據」這兩種原材料,就可以對這些原材料按需進行加工計算,產生新的數據,也即「計算的數據」。這些新的數據就是數據價值的體現,是業務問題的答案,能帶來更好的用戶體驗、更高的運營效率、更精準的客戶營銷。

當然,數字版本只是現實世界的虛擬鏡像,而且進行了抽象,通過數據版本能解決的問題也是有限的,不是所有現實世界的問題都能解決。比如某個人只有1.5米高,不管把數字版本的身高改成1.6米還是1.8米,現實世界中這個人仍然是1.5米。通過對數據版本的操作,只能幫助大家加深對現實世界的理解,尋找現實世界背後的規律,再利用這些規律來指導現實世界的行動,達到事半功倍的效果。

細心的讀者已經發現,要實現數據的價值,關鍵在於數據的價值鏈閉環。該閉環包括三個環節,分別是通過對現實世界進行觀測產生數據、對這些數據進行加工計算尋找現實世界的規律、用這些規律來指導現實世界的行動。這三個環節缺一不可,如果缺少某個環節,將無法實現數據的任何價值。每個環節都同樣重要,如果哪個環節做的不好,那數據的價值將會大打折扣。當這三個環節都實現了,環的首尾將銜接起來,形成一個螺旋上升、不斷優化的閉環。第一次觀測產生數據Data-1,對Data-1進行加工發現規律Rule-1,把Rule-1應用到現實世界產生行動Action-1,這時Action-1的行動效果將出現在第二次觀測的數據Data-2中,利用Data-2對Rule-1進行優化產生Rule-2,接著用Rule-2產生更優的行動Action-2,這時Action-2的行動效果又出現在第三次觀測的數據Data-3中,以此類推,不斷循環下去。那這個循環會不會結束,什麼時候結束?存在幾種可能性,經過若干次循環後,第一種是現實世界的行動達到了預期目標,當然就可以結束了。第二種是行動效果趨於某個穩定值,但未達到預期目標,這樣下去可能永遠無法達到,是時候停止了。第三種是行動效果時好時壞,且都低於預期目標,這種情況也可以停止了。

最後,用一個非常重要但又沒有公認答案的問題來結束本文,這個問題就是「什麼是數據思維」。我認為,數據思維就是把業務問題轉換成數據問題,再利用數據價值鏈閉環去解決它。


推薦閱讀:

大數據架構師技能
RDD論文翻譯:基於內存的集群計算容錯抽象
用Apache Spark進行大數據處理——第一部分:入門介紹
筆記 | 如何選擇一個靠譜的物聯網平台
大數據Hadoop常見異常處理,初學的你要看看

TAG:大數據 | 數據分析 | 大數據時代 |