大數據的價值——豈止於大
管 理 智 慧
包政先生團隊運營,商業管理類第一自媒體
導讀
文/單藝
以下為單藝演講全文:
今天我來做開場演講,主題是「大數據的價值,豈止於大」,這個是有原因的。最近我跟我們團隊到地方政府談一個項目,地方政府派出一個專家小組與我們見面,當時問到:「你們談大數據,是不是就是大,但是它不準確?」當時把我愣住了,因為我覺得大數據這個名詞出來也有兩三年了,那位評審專家看樣子是一位教授,還問這樣的問題,確實讓我覺得吃驚。其實社會上對大數據的價值認知還是不足,所以我就想花十分鐘的時間講講我的思考,希望給大家一些啟發。
我們談到大數據,是從互聯網時代興起以後,IBM的科學家總結了大數據的四個V,第一個是Volume,數量很大。從我們最早的時候,我開始學計算機時存儲容量的單位是KB,然後MB,再後來GB,到現在變成了TB。
第二個是Velocity,高速。我們接受信息,接受數據的速度大大高於以前,比如像品友的沈總做DSP,每秒要響應數十萬次的請求,都是很常見的情形。
第三就是Variety,多樣性。就是我們的數據已經比較變得很豐富,從簡單的文字數值到多媒體的各種形式,再加上最近,比如快的做的很多跟地理位置GPS數據都會收集進來,就比以前豐富了很多。
最後一點Veracity,真實性。因為我們可以收集大量的數據,這裡面就是數據的真實性是比以前要高很多。當然,與此同時也會有噪音,所以在這種情形下,我們有這麼多數據能幹什麼,這是一個核心的問題,否則你就可能會像圖片裡面的先生茫然不知所措不知道怎麼用這個數據。
我們大數據做的主要的工作其實並不是說我們只是比較數據的大小,並不是比size有多大,而是怎麼用,這一點是大數據應用中需要大家去思考去挖掘的方面。
從我自己的工作經歷來講,我覺得如果我們是一個做大數據的企業或者個人,手上有很好的數據,那怎麼來用,第一步是找到問題,這是最關鍵的,你根據你的業務、根據你真實的一些挑戰,發現一個具有商業價值、具有社會意義的問題,這很重要。
因為我遇到過一些大數據從業者,他會提問說:「我覺得我的數據團隊,感覺在公司裡面不是那麼受重視。」我覺得他們應該要去好好反思一下,因為你自己要知道,你最有價值的問題在哪裡。
接下來你找到問題之後,我們要想辦法把它量化,開始收集數據,就用度量的方法,各種技術手段,比較簡單的是計數,也可以做一些指標。
下面我講一個簡單的例子,獵聘網站就很注重保護我們用戶的信息安全和隱私,我們最近在查一件事情,是不是有一些獵頭,他在惡意的下載我們的用戶的簡歷。運營部門找到我說這個問題怎麼辦。第一步我們想先去分析一下,這些獵頭他們在我們網站上的表現如何,我們有很多的數據,獵聘網每天會收集兩千多萬條用戶數據,我們用戶有一千七百萬,在高峰時候我們可以做到五千萬條,我們把數據收集以後進行評價,用一些定量的方法發現說哪些行為是屬於正常範圍內的,哪些是屬於異常的,這裡面就可以用到一些常用的統計方法,異常檢驗的方法。
做完這一步之後,我們就有一個比較科學的、基於數據的判斷,接下來我們就可以做決策了。我們做了,比如拿到獵頭的行為數據之後,我們就可以畫出一條紅線出來,當你達到這條紅線的時候,我們會給你警告,再超過就會封你的帳戶。通過這樣的方式,我們是得到了一個科學的、有基於數據的保護用戶隱私的方法,而不是拍腦袋。我們可以保證用戶體驗得到一個很好的效果。
其實你做完決策之後,我們還可以做得更深入一些。你做決策中會看到有一些方案好,有一些方案差,但是仍然可以把好的方案做得更好,做改良和調優的事情。你做深入的分析,看哪些環節我們仍然可以把它做得更上一層樓。
優化是屬於改良的,其實我們現在有好多數據可以做擴展,可以去創新、做新的產品——基於數據的產品,甚至顛覆已有的產品。比如我聽說美國有一家公司,他們通過分析社交媒體上用戶評論的數據,來預測各個公司的銷售它的股價的情況,這個完全顛覆了以前華爾街分析師的方法。原來他們要做很多現場的調研、自己的模型去預測行情,這家公司更多是通過線上的實時數據做快速的判斷,另外像比較熱的P2P風險金融的控制也是一個例子。
我在獵聘做了很多數據產品,裡面有一個是我們做的相當長時間的招聘推薦。能夠根據用戶特徵還有應聘的行為,推出合適你的職位,你不需要做什麼事情,每天都可以給你推送過去。可以讓用戶能夠很快的看到,有哪些職位會比較感興趣。還有另外一個,是同事關係的推薦。獵聘有很多用戶,他們其實工作之間是有交叉的,他們有可能是認識的人,希望可以把他們重新聯繫起來。我們做了一個模型,發現現在的數據裡面已經具備了有五億對兒的同事關係。之前嘗試過通過簡單的類似搜索引擎的匹配方式去做,可以達到一定效果,但不是太好。現在又研究了一個用概率模型來做、來算。就是根據公司的情況,你的行業,你們倆的交叉的時間,能夠算出來你們兩個或是任何兩個人有多大概率以前是認識的,通過這個模型,我們把這個準確率一下子提高到了原來的五倍,同時這個計算方法是離線的,20分鐘之內我們就可以把1700萬關係用戶全部算完。
所以總結一下就是說,你要把數據用好,可以用一個框架,第一步,先把你的問題量化,做好一個基礎的工作就是度量。接下來就是進行一些評價,就是對比趨勢分析,有這些你就可以做決策了,做完決策對好的方案你可以做的更好。進行局部的調優改良,再高一個層次就是創新和顛覆已有的模式,從層次的角度上來看,你往上面越走投入也越大,風險也會大。但是回報也高,所以這個時候,大家要判斷一下這個事情到底值不值得做?
來源:獵聘網同道精英匯
推薦閱讀:
※能源行業將被重構,大數據有哪些「挖」法?
※今日數據行業日報(2017.02.23)
※農業大數據的應用帶領中國農業跨越式發展
※一、大數據的誕生
※解讀GDPR | 史上最嚴格的數據保護法案今起全面實施