破解數據三大難題:變現?交易?隱私?
對數據價值和變現形式的探索,在廣告行業已進行了十幾年,目前形成了比較完善的數據交易與定價機制,並且在規模化地創造整個互聯網的營收。近年,國內就有數家大數據交易所正式掛牌運營。因此,詳細了解廣告行業的數據變現方案及其在整個商業化機制方面的經驗與教訓,對真正理解數據價值,做好數據交易將會非常有幫助。為此,在七牛主辦的D-Future大會上,360高級總監劉鵬(北冥乘海生)分享了自己在這一領域的觀察和思考,並明確指出數據交易中所存在的定價和隱私問題。
那麼,如今互聯網上的用戶行為數據到底有沒有價值,數據到底該如何變現呢?這個問題將從什麼是大數據談起。
什麼是大數據?
劉鵬對大數據的認識和其他人不一樣。從實踐的角度去理解,他並不認為傳統的數據分析問題屬於大數據問題。例如,雖然統計公司在每個省的用戶比例等問題 要處理大量日誌,但這並不是大數據,而是屬於傳統數據分析的問題,因為通過很低的採樣(如十萬分之一的採樣),將數據抽出來,用Excel也可以統計。
兩類數據應用:洞察與自動化
數據有兩類基礎應用,即洞察和自動化。洞察是全局或局部統計性的信息(統計數據)。而自動化是個體的行為特徵信息的統計數據,這裡的個體可能是人,可 能是一個網站,而統計的則是大量個體的非聚合特徵。洞察主要應用於宏觀的決策支持,面向的對象是人。而自動化面向的是機器,如定向廣告、個人信用,自動化 主要用於微觀業務的實施。在大數據技術迅速的今天,自動化應該放在更優先的地位。數據變現基本原理
三方數據與數據交易
現在所講的數據交易都和廣告相關,其他行業的數據交易還並未發展起來。要了解數據交易,需要知道幾個概念,即三方數據。第一方數據是指廣告主數據;第二方數據指廣告平台數據,如Facebook提供的用戶標籤;第三方數據指其他來源數據,指手裡有數據且願意從事廣告活動的第三方提供的數據。數據變現需要一個交易的過程,但這個過程還很不成熟。數據交易存在的問題
行為數據交易三定律
數據交易有什麼特點呢?劉鵬談了自己對於數據交易的認識,並總結為以下三定律:
l 第一定律,數據只能交易,不能交換或者共享;數據共享的事件似乎正在發生,各公司之間在相互的交換數據,希望能夠對彼此的業務產生一些貢獻。但事實上,結果只有兩種:一種是在線上系統進行大規模數據 共享交換的案例,這種只存在於有投資關係(即母公司和子公司控股關係)以後才會發生的數據交換,定價或者交易實際上發生在更高的資本之間。另一種,很多人 的交換或者共享,這種的結果往往不會有下文,大家只是相互測一下數據對於雙方是否有用,測完就結束了。其實,數據在互聯網市場上變現很容易,這也是擁有大 量數據的巨頭公司不會共享數據的原因。即便百度這種大公司拿出一些數據進行共享,也只是短時的貼補,主要用於刺激市場的流動性,但這短期是可行的,長期很 難形成規模。數據具有變現的價值,所以真正的共享是不存在的。唯一可共享的是政府數據,因為政府沒有盈利的需求,但如果無邊界的共享,也會成為一種災難,所以政府數據的共享可描述成一種政府的轉移支付。
l 第二定律,只有按效果而非購買量付費,才有足夠的需求。
廣告的程序化交易過程中,ADX在每一次impression(印象,放置廣告圖像的網頁每一次顯示,就是一次印象)都會向DSP發一次請求,所以每一個impression都會做廣告交易。對方想要什麼數據你就給他什麼數據。結算不根據數據結算,你給了對方一百萬個標籤,他就給你標籤的錢,而是根據最後贏得的廣告展示量(即數據最後實際產生的效果)付費。
廣告市場這樣做交易,規模才可以做得更大,因為它解決了購買部分數據和按照效果購買數據的問題。如果整體購買數據,數據交易市場會做不起來。互聯網所有的 產品,不管是廣告,還是將來的數據,一定是靠長尾的客戶,靠頭部的客戶。現今的解決方案只適合廣告產業,其他的場景怎樣部分交易,怎樣按效果交易,需要結 合每一個場景討論,全量交易沒有前景。
現今的數據交易所還很初級,它還未發現數據交易中購買需求方的問題。數據需求方要買一部分數據,如果給他全量數據,不僅大量數據用不上,還會給對方造成成本的增加。但在廣告交易里,這個問題已經獲得解決。
l 第三定律,數據交易跟流量交易本質的不同在於,同一數據被越多的人使用價值越低。從流量看,一個廣告位投一次展示,只能是一個人在用,而從數據看,知道這個人是男性,並告訴十個人,它的價值就自然地下降。
給數據定價是數據交易裡面最困難的一步。互聯網的廣告和傳統廣告不同,互聯網是通過拍賣的方式競價,定價權掌握在需求方,廣告主給要買的流量定價。廣告對於不同的廣告主,其價值不同,對甲方廣告主可能值1塊,但對乙方廣告主可能值2塊,這時廣告定價1塊或2塊都不合適,而競價可以解決資源的分配。數據最終也會走向競價的模式,但數據的交易和流量的交易卻有本質的差別,流量交易的量會受到限制,即一次就是一次,不可能兩個同時投放。而數據的一個標籤可以給十個人,現在的數字交易是不限量的,會發生數據的價格向流量價格的轉移。
現在的數據交易市場存在一個很大的問題,即數據本身的交易量很大,但價格偏低。這是由於沒有限制數據供給量,使得競價環境不能形成,因此抬高了流量價格, 低估了數據價格。但這個問題並不好解決,因為它會對前面的交易過程有深層次的影響和變化。只有把限量供應和競價的問題解決掉,數據才能真正的合理定價。
未來的大數據行業,需要徹底解決數據交易的問題,數據交易市場才能爆發成長,因為一個沒有交易的商品,很難獲得大規模發展。
大數據隱私問題
關於隱私,你肯定不希望自己的個人數據泄露給不相關的人。歐盟負責隱私保護條例制定委員會——A29協會,對於隱私給出了一些基本的原則,這些原則也是現在歐美互聯網公司的共識。基本原則包括:- PII(Personal Identifiable Information)不能使用,如家庭地址、電話、名字等信息。PII嚴格禁止使用,也不能變成標籤。
- 用戶可以要求系統停止記錄和使用自己的行為數據。
- 不能長期保存和使用用戶的行為數據。以一年半為周期,數據超過一年半,備份也不允許,因為備份很可能會泄露出去。
實際碰到的隱私問題會更嚴重,比如朝陽區某個人xx歲,在xxx公司上班,如果對這個人較熟悉,對他有一定背景信息的了解,如果沒有對這個人做任何的PII,就非常容易根據信息把他定位出來,如果表格上面有這個人的月薪,該信息就泄露了。
互聯網大數據真正嚴重的問題,其一是稀疏行為數據的新挑戰。這裡分享一個故事,Netflix曾經有一個100萬美金的推薦大賽,給的是每個人的觀影記錄,讓大家給新的影片打分,並預測新影片是否會受歡迎。有個人參加了這個比賽,他看到了一條記錄,關於ABC影片的觀影時間和評價,立刻反應出該記錄是由自己同事產生,同時,他發現除了這些觀影記錄之外,記錄里還有很多關於同性戀的電影。但該同事並不想讓別人知道自己在看同性戀相關的影片,當這位同事知道Netflix公司泄露了自己的隱私後,將Netflix告上了法庭。因此,隱私的問題並不是指有人把用戶的信息賣出,而是指熟人之間的隱私,即甲對乙有一定背景信息的了解,同時甲正在不計成本地了解乙的隱私。
隱私是大數據頭上的達摩克里斯之劍,只是現在還未到爆發之時,大家也沒有技術手段去規避這種問題。很多科學家和數學家現在都在研究,怎樣在一個個性化的 系統里和數據交易里降低風險,但至今還沒有找到答案。但隨著大數據產業的發展,我們有理由相信,數據交易里未解決的定價和隱私問題,終有一天會得到很好的解答。
推薦閱讀:
※《數據架構》閱讀筆記(十二完結篇)複合式的數據架構
※Paper Reading:開啟大數據時代的經典系統
※如何自學大數據?先對自己來一個深度剖析
※RDD論文翻譯:基於內存的集群計算容錯抽象
※大數據計數原理1+0=1這你都不會算(七)No.59
TAG:大數據 |