標籤:

大數據的本質是消除不確定性

作者:桑文鋒,神策數據創始人兼 CEO,前百度大數據部技術經理

題目的觀點是我在吳軍的某本書上看到的,當時內心咯噔了一下。我一直在思考到底什麼是大數據,這句話直中要害。這麼牛的觀點,我一般不太相信是一個人直接領悟出來的,背後一定會有其它來源依據,今天終於被我找到了。在看《暗時間》時,裡面討論了一些資訊理論相關的內容,於是就嘗試搜索資訊理論和不確定性的關係,結果發現香農說了這麼一句話:「信息是用來消除不確定性的東西」。資訊理論的鼻祖果然是鼻祖,一句話解釋了信息。

去年我在看《矽谷百年史》時,順便研究了從二進位到計算機的演變過程,當時有一個問題:二進位都可以用電路來表示,那麼怎麼證明兩者是等價的呢?結果我順著這個問題發現香農的碩士論文就是寫的這個東西。想想我自己的碩士論文,只能說人和人還是有差別的。

我本科和研究生都是計算機專業,並沒有學過《資訊理論》,這門課應該是通信專業的必修課。我猜想信息和不確定性這個疑問,對通信專業的學生來說,根本就不是這個問題。當然,通信專業的學生可能也不能很好的理解大數據。有時間我會把這門課自學一下,來消除一下我對熵這種概念的恐懼,至少現在還沒邁過這個坎。

什麼是不確定性?比如來說,你不知道回家的路上是不是擁堵,這就是一種不確定性。如果通過打開百度地圖查看實時路況,你就知道了結果。這樣,百度地圖就給你提供了信息,從而消除了這種不確定性。顯然,大數據只是信息的一種,既然信息是用來消除不確定性的,大數據自然就是消除不確定性的了。我思考這個問題,還是為了搞清楚大數據本身的價值。我的職業生涯都是建立在其之上,可不想它本身是站不住腳的。

從消除不確定性的視角來解釋大數據的價值,就直接很多。我把數據的價值歸結為兩點,一是驅動決策,比如產品怎麼改進更好,運營活動開展的效果如何;二是驅動產品智能,比如個性化推薦、精準廣告等,現在都統稱為 AI,都是將準備好的數據套上一定的策略演算法,將結果反饋到產品上,讓產品具有學習能力,即智能。對於以上這兩點,大數據分別消除了決策的不確定性,和針對個體提供服務的不確定性。

我之前的一篇文章《從日誌統計到大數據分析(九)--魏晉 - 知乎專欄》中,講解了大數據的「大」、「全」、「細」、「時」四個特點,以及什麼是大數據思維,希望能夠幫你更好的認識大數據。

後記:

幾天後確認題目觀點出自吳軍的書《矽谷之謎》。這本書最後一章討論了資訊理論對矽谷起源的意義,以及分析了大數據和互聯網兩種思維方式的本質,前者是通過信息消除不確定性,後者是基於香農第二定律,擴大信息傳輸的帶寬。只是一年多前看這本書時,一些內容不感興趣匆匆略過,現在算是真正理解了。


推薦閱讀:

線下大數據驅動營銷新趨勢
讓大數據消滅糾紛,別把你消費時受的氣帶回家
Kaggle數據分析實踐——優秀員工為何離職
Larry 怒懟 亞馬遜
用Python進行梯度提升演算法的參數調整

TAG:大数据 |