數據正在催生的新經濟

數據正在催生的新經濟

來自專欄 企名片-金融工作系統FinOS,企業數據服務商

本文刊發於經濟學人,原標題《Data is giving rise to a new economy》,

市場研究公司IDC預測,到2025年,「數字宇宙」(每年創建並複製的數據)的規模將達到180澤位元組(180後面再跟21個零)——若用一根上網寬頻來傳輸,450年都傳不完。

為加速數據中心的運轉,電子商務巨頭亞馬遜(其雲計算分支正迅猛發展)動用了卡車運送集裝箱,每個集裝箱里的存儲設備容量達100拍位元組(PB;也就15個零)。

為消化如此多的數據,企業正加速構建數據提煉設施。據《華爾街日報》報道,2016年,亞馬遜、Alphabet和微軟三家企業的資本支出與資本租賃共計320億美元,較上一年增長22%。

數據的質量也發生了改變。其主要存在形式不再是數據信息的倉庫——姓名、年齡、性別、收入等定義明確的個人數據的資料庫。數據經濟更偏重於分析,對象是非結構化實時數據流:社交網路用戶上傳的照片、視頻流,人們通勤路上生成的汗牛充棟的信息,以及噴氣式飛機發動機上,無數感測器輸出的數據洪流。

從地鐵到風力發電機,從馬桶圈到烤麵包機,越來越多的設備都在變成數據來源。聯網感測器將充斥世界,無論走到哪裡,你都會留下一串數字腳印,哪怕你沒有聯網。

正如軟體公司甲骨文的大數據戰略師保羅·桑德雷格(Paul Sonderegger)所言:「數據將成為終極外部性:我們無論做什麼,都會產生相應的數據。」

你所知的信息

最重要的是,數據正在升值。最初,Facebook和谷歌收集用戶數據,用於改進定向廣告。近年來,這些公司又發現,數據可以轉化為無限量的人工智慧(AI),或「認知」服務,有的還能催生新的收入來源。

這樣的服務包括翻譯、視覺識別,以及憑一個人的文字評估他的性格特徵。這些都可以賣給別的公司,用於它們的產品。

雖然數據經濟的徵兆俯拾即是,但直至最近,它才初具雛形。在J.R.尤因(J. R. Ewing)眼裡,這一切都顯得格外眼熟。

大型數據公司,不斷壯大的投機分子隊伍,以及其他無數公司,大家都試圖分一杯羹。所有人都是沖著一台強大的經濟引擎來的,它就是「數據網路效應」,即用數據吸引更多用戶,進而催生更多的數據,再用這些數據改進服務,並吸引更多用戶。

大型數據公司坐享最充裕的數據信息庫。比如在Facebook上,評論、點贊等互動數量越多,它就越了解用戶,其廣告與消息流的定向就越準確。同樣的,人們用谷歌搜索的總量越多,谷歌返回的結果就越精準。

這些公司永遠都在尋找新的信息源泉。Facebook借用戶之手訓練自己的一些演算法,比如在用戶上傳照片、圈出好友時。

這解釋了其計算機何以識別幾億人的面孔,且準確率達到98%。谷歌數字管家Google Assistant也是如此,你用得越多,它完成任務、回答問題時就越嫻熟。

Uber以廉價打車服務著稱。但它能獲得680億美元的估值,一個原因是它把持著個人交通領域供(司機)需(乘客)關係的最大數據池。

類似地,對大多數人而言,特斯拉是一家生產高檔電動汽車的公司,但它的最新車型收集到巨量數據,幫助特斯拉優化自動駕駛演算法,進而更新軟體。及至去年年底,該公司已收集到21億公里里程的駕駛數據——比Alphabet自動駕駛汽車部門Waymo高出好幾個數量級。

「數據驅動型」初創企業是數據經濟中的冒險者:勘探數字石油,加以提煉,巧妙地轉化為新服務,從分析X光片和CAT掃描,到確定草坪上何處該施用除莠劑。

以色列初創企業Nexar就設計了一種巧妙的方式,使司機成為數據來源。其應用將司機的智能手機變成行車記錄儀,通過司機的操作標記行車錄像。

若很多人都在同一位置意外剎車,此處就可能存在坑洞或障礙物。作為使用Nexar應用的報償,司機獲得免費的行車記錄儀和相應服務,比如,一旦發生事故,就可獲得詳細的事故報告。

Nexar的目標是提供各類服務,幫助司機避免事故。其中之一就是坑洞警報,或者在某個處於視角盲區的轉角處有車驟停時發出警報。

非科技公司也在勘探數字礦井。比如通用電氣(GE)就開發了Predix,一個「面向工業互聯網的操作系統」,幫助客戶控制機器設備。

Predix也是一個數據收集系統:它從連接的設備處收集數據,拿來與其他數據相混合,繼而訓練演算法,幫助改進電廠運作,或者在噴氣飛機引擎發生故障之前確定維護時機,諸如此類。跟石油市場一樣,大型數據公司不斷地兼并小公司。

但數據經濟還有令「黑色黃金」交易者們頗感陌生的一面。按價值計算,石油是世界上交易量最大的大宗商品。相比之下,數據交易幾乎無跡可尋,至少,數據與金錢的交易鮮有存在。

這跟它「新興資產類別」這一稱號很不相稱。在2011年發布的一份報告中,世界經濟論壇(WEF;達沃斯的會議組織機構兼智囊)就給數據冠以這一稱號,隱含的意思是,構成數據經濟的,將是欣欣向榮的數據信息市場。但從當前的情況來看,數據經濟基本上是一個個相互孤立的「穀倉」集合體。

自己的信息自己保管

交易市場缺失的原因,也是相應企業產生的原因。由於市場交易攜帶的各種「交易成本」——搜尋信息、談判交易、執行合同等等,在公司內部進行這些活動就會更加簡單、高效。同理,比起在開放市場買賣數據,在公司內部生成並使用數據通常也更有利可圖。

數據流固然充裕,但算不上大宗商品:每一個信息流都不盡相同,時效性、完備度各異。用一個經濟術語來說,就是缺少「可替代性」。因此,買方很難對一組數據出價:對於不同類型的數據,價值的可比性並不是很強。買賣雙方都怕吃虧,這是抑制交易的因素。

直到近期,研究人員才開始開發定價的方式方法,諮詢公司高德納(Gartner)稱之為「信息經濟學」(infonomics)。加州大學聖迭戈分校的吉姆·舒爾特(Jim Short)是數據定價先驅者之一,致力於涉及數據定價的案例研究。

其中一個案例涉及到2015年申請破產的賭博集團凱撒娛樂(Caesars Entertainment)的一個分支。該分支最值錢的資產估值達10億美元,據稱就是客戶數據——前17年加入該公司忠誠度計劃的4500萬客戶的數據。

正因為數據定價如此之難,對一家公司來說,直接收購另一家公司可能更加乾脆利落,哪怕它只對被收購方的數據感興趣。2015年,據報道,IBM斥資20億美元收購Weather Company,就是沖著它海量的氣象數據,以及收集氣象數據的基礎設施。

另一個模糊地帶是物物交換:英國國家醫療服務體系(NHS)的一部分已經DeepMind(Alphabet的AI部門)達成一致,用匿名患者數據換取DeepMind從中提煉的醫療洞見。

和石油不同,數字信息是「非競爭性」的,也就是說,它們可以複製,同時被多人(或多個演算法)使用,問題由此進一步複雜化。這意味著數據很容易被用於事先約定以外的其他用途。

另外,數據所有者也很難界定(以自動駕駛汽車為例,數據所有者可以是汽車廠商,可以是感測器供應商,也可以是乘客;假以時日,若自動駕駛汽車變成「自動所有」汽車,數據所有者還可以是汽車本身。)

「數據買賣枯燥至極,」高德納的亞歷山大·林登(Alexander Linden)說。因此,數據交易通常是雙邊交易和一事一例的,不適合三心二意者:數據合約通常洋洋幾十頁紙,法律術語密集,規定了數據應如何使用、如何保密。最近,一家大銀行的一位高管就告訴林登,他可沒時間簽署這樣的文件,哪怕數據價值不菲。

個人數據就更棘手了。「在一個監管健全的全國性信息市場上,個人信息是可以買賣的,賣方有權決定提供多少信息,」1996年,紐約大學肯尼斯·勞登(KennethLaudon)在一篇題為「市場與隱私」著名文章中寫道。

不久前,世界經濟論壇就提出了「數據銀行賬戶」的概念,稱個人數據應該「置於一個賬戶之中,在賬戶內進行控制、管理、交易和核算。」

這概念聽著很優雅,但交易市場和數據賬戶都尚未實現。其問題跟企業數據恰恰相反:人們太容易交出個人數據、換取「免費」服務了。微軟研究(Microsoft Research)經濟學家格倫·威爾(Glen Weyl)說,交易條款幾乎是無意間變成了標準。

繼本世紀初網路泡沫破裂後,企業亟需打開財路,捷徑之一就是收集數據,實現定向廣告投放。直到最近,這些公司才意識到,數據還可以轉化為無限量的AI服務。

演算法的奴隸

用數據換取免費服務,這種交易是否公平,主要取決於這些服務的價值源於何處:是數據,還是分析處理數據的演算法?

谷歌首席經濟學家哈爾·瓦里安(Hal Varian)認為,數據中存在「規模收益遞減」效應,也就是說,隨著數據規模的增加,新增數據的價值呈遞減趨勢,一旦超過某個閾值,信息的增加就不會帶來價值的提升。

他說,更重要的是處理數據的演算法質量,以及一家公司旗下開發這些演算法的人才。谷歌的成功源於「菜譜,而非食材」。

在網路搜索的早期階段,情況也許的確如此,但在人工智慧的新世界則不然了。演算法的自學能力不斷長進,饋給它們的數據越多、越新鮮,結果就越理想。

威爾表示,隨著應用數量的不斷增加,數據的邊際效應事實上還可能遞增。就比如網約車領域,在為一項服務收集到足夠多的數據(比如實時路況信息)之後,新增數據也許不會帶來價值的增益。但只要繼續收集下去,它總有一天能提供其他服務,比如路線規劃。

這些爭論,加上數據交易的不溫不火,也許只是生長疼痛。石油交易市場也用了幾十年才漸漸完善起來。頗具諷刺意味的是,加速這一過程的是標準石油公司(Standard Oil)——約翰·D.洛克菲勒於19世紀末建立的石油壟斷企業。標準石油的計劃就在它的名字之中——標準化,使一種新資源的交易成為可能。

對於價值高、易於標準化的個人數據,相關交易市場早已存在。「數據經紀商」能對特定類型的數據進行快速交易。

在其他領域,市場或類似市場的東西正在萌芽。以主導企業資料庫市場的甲骨文公司為例,該公司正在開發相當於數據資產交易所的東西,希望客戶買賣數據,並結合甲骨文提供的工具套裝,從中提煉洞見,而且這一些都在該公司計算雲提供的安全環境中進行,確保信息不被濫用。初創企業Cognitive Logic也在開發一款類似的產品,但將數據留存於其他的IT系統之中。

有的年輕企業希望消費者也能從自己的數據中獲益。Citizenme允許用戶將自己所有的網路信息收歸一處。用戶若選擇與某品牌分享個人信息,就可獲得一小筆報酬。初創企業Datacoup正從個人數據中提取洞見,銷售出去,並將部分所得回饋用戶。

到目前為止,這些努力都成效寥寥;專註於個人數據的更不消提起。目前,消費者和網路巨頭之間依然相互依存,但關係有些尷尬。

人們不知道自己的數據值多少錢,也不想管理這些數據,免得麻煩,卡內基梅隆大學的亞歷山德羅·奎斯蒂(Alessandro Acquisti)說。但他們也表現出了「習得的無助感」:服務條款通常令人費解,用戶除了接受,別無選擇(比如說智能手機應用,要是不點選「我同意」,應用立馬就退給你看)。

另一方面,網路公司也開始嚴重依賴免費數據:無意於從根本上改變用戶協議。它們要是付錢購買數據,並構建昂貴的系統,用於追蹤用戶的數據貢獻,那麼,數據提煉商就會無利可圖了。

重要的資源不一定都是廣泛交易的;無線電頻譜和水權就是兩例。但威爾認為,對數據而言,交易市場的缺失可能會導致低效。如果數據信息沒有定價,有價值的數據也許永遠無法生成。

如果數據繼續困在相互孤立的「穀倉」之中,很多價值也許永遠無法提煉出來。大型數據提煉公司並沒有獨掌創新;其他企業也許能更好地利用信息。

數據市場的匱乏也會讓老大難的政策問題更加棘手。最突出的有三個:反壟斷、隱私和社會平等。和石油領域一樣,最迫在眉睫的就是反壟斷。1911年,美國最高法院維持下級法院的判決,即拆分標準石油。當時,標準石油控制了美國90%的石油提煉業務。

已經有人呼籲拆分谷歌等公司。比如,南加州大學的喬納森·塔普林(Jonathan Taplin)就在新書《快速行動,打破陳規》(Move Fast and Break Things)中如是呼籲。但如此激進的補救措施恐難奏效。拆分會造成巨大的干擾,從而減緩創新。而且很快,小谷歌和小Facebook們就會形成新的壟斷。

然而,要求採取行動的呼聲日益高漲。牛津大學的阿里爾·埃茲拉徹(Ariel Ezrachi)說,「超級平台」把持了過大的權力。他與田納西大學的莫里斯·斯塔克(Maurice Stucke)合著的新書《虛擬競爭》(VirtualCompetition)已於最近出版。

他論稱,這些平台擁有比他人更多、更新鮮的數據,可以迅速偵測到競爭威脅。憑藉雄厚的財力,一發現哪家初創企業不可小覷,它們就立馬出手收購。它們還可以操縱自己壟斷的市場,比如讓演算法快速響應,使競爭對手沒有機會通過降價贏取顧客。「看不見的手也正在數字化,」埃茲拉徹說。

小心「數字之手」

在數字時代中,反壟斷當局至少得磨礪一下自己的工具。歐盟委員會沒有阻撓Facebook併購WhatsApp。它表示,雖然兩者運營著世界上最大的兩款消息服務,但其他這類服務不在少數;由於WhatsApp不怎麼收集用戶信息,Facebook掌握的信息量也不會因此增加。

但Facebook之所以收購WhatsApp,是害怕它成長為強大競爭對手。它創建了「社交圖譜」的一個替代選項。社交圖譜即好友關係網路,是Facebook最寶貴的資產。

在等待併購提議獲批期間,Facebook曾許諾不會合併兩者的用戶群,但去年偷偷開始合併,引致歐盟委員會以罰款相威脅。

從Facebook引發的糾結中不難看出,一些歐洲國家為何開始更新競爭法。在德國,相關立法已遞交國會,一旦通過,聯邦卡特爾局將有權介入涉及網路效應和數據資產的案件。

聯邦卡特爾局已經對數據經濟予以特殊關注,並啟動了一項調查,看Facebook是否濫用其主導地位,強制實施某些特定的隱私政策。局長安德里亞斯·蒙特(Andreas Mundt)想更進一步:「我們能否進一步優化調查技巧?如何更好地將動態效果納入分析?」

監管機構要履行職責,一個通用法則就是像它們監管的企業一樣勇於創新。在最近的一篇論文中,埃茲拉徹和斯塔克提出,反壟斷當局應該運作「暗中勾結孵化器」——要調查某個定價演算法是否操縱市場,或是與市場暗中勾結,他們就應該在自己的計算機上運行模擬。

另一條思路是提供集中存在數據的替代選項。政府可以進一步開放收集到的數據,為小型企業創造機遇;還可以支持「數據合作社」。在瑞士,一個名為Mitada的項目從患者處收集健康數據,患者可決定是否允許研究項目使用自己的數據。

數據分銷

一些重要的數據類型甚至需要強制分享。出版《Stratechery》通訊的本·湯普森(BenThompson)最近提議,社交網路應該開放其社交圖表的訪問權。

同樣被Facebook吞併的照片分享服務Instagram最初憑藉讓新用戶導入Twitter關注者名單的做法而異軍突起。「後來,社交網路就不允許這種操作了,使競爭者更加難以壯大,」湯普森指出。

強制性數據分享並非前所未聞:德國就要求保險商共同維護一組統計數據,包含汽車事故在內。這樣的數據是小企業無力自行編纂的。歐盟新推行的《一般數據保護條例》(General Data Protection Regulation)將於2018年5月生效,要求網路服務創造有利條件,方便用戶將信息轉移至其他服務提供商,乃至競爭對手處。

但「數據便攜性」和數據共享凸顯出第二個政策難題:數據市場與隱私保護的緊張對峙。在買賣或共享過程中,個人數據更容易泄漏。

為降低這一風險,《一般數據保護條例》加強了人們對各自數據的控制:企業須就數據的使用方式,獲取用戶的明確許可。違者將被處以高額罰款:最高可達企業全球營收的4%,或2200萬美元。

在數據流混合匹配的當下,這種法規殊難實施。另外,收緊數據保護和促進競爭也是一對矛盾:大企業有更強大的實力去遵守代價高昂的隱私法規,不僅如此,大企業也可以藉此進一步加緊數據控制。

假以時日,新技術也許能取代原理簡單、容易破解的匿名化,從而緩解這種矛盾。初創企業Bitmark就使用比特幣的「區塊鏈」技術,追蹤記錄數據訪問者。但法律創新也必不可少,牛津大學維克多·麥爾-荀伯格(ViktorMayer-Sch?nberger)說。

他還有其他一些數據專家認為,不但數據的集合需要監管,其使用也需要監管。正如食品行業禁用某些配料,網路領域也可以禁用某些數據,或禁止用數據對個人造成傷害。他認為,這樣可以將責任轉移到數據收集者和使用者頭上,他們應對自己管理的數據負責,而不是在獲得個人許可之後,就萬事大吉了。

這種「基於使用」的數據監管很難實施,絲毫不亞於當前通行但具有爭議的「告知與許可」模式。這也可能加劇當前數據經濟的第三大挑戰:社會與地理層面的收益不均。

至少就個人數據而言,當前模式幾乎難以維繫。隨著數據的升值,以及數據經濟的重要性不斷增加,所有錢都將落入數據提煉者的腰包。數據生成者面臨一場不公平的交易,他們到手的只有免費服務。在2014年出版的《誰擁有未來》(WhoOwns the Future?)一書中,微軟研究院(Microsoft Research)的賈倫·拉尼爾(Jaron Lanier)最先指出了這一點。

威爾提出了該論點的另一個版本:歸根結底,提供AI服務的不是演算法,而是生成原材料的人。「數據是勞動力,」威爾說,他正致力於開發一個系統,用于衡量個人數據貢獻的價值,從而為更加公平的交易打下基礎。

全世界數據工人,聯合起來!

威爾說,難點在於,你要讓人們理解,他們的數據是有價值的,他們理應獲得報酬。「我們需要某種形式的數字工人運動,」他說。「更難的是說服數據巨頭們——拉尼爾稱之為『塞壬伺服器』——改變做法,因為現狀讓他們獲益頗豐。」

地理分布的平等化也許就更難實現了。當前,多數從事大數據提煉的公司都位於美國,或是由美國公司掌控。隨著數據經濟的進展,這種局面將難以維繫。過去,美國和歐洲圍繞隱私爭執不斷,未來從中可見一斑。

中國的監管草案要求,企業應將收集到的所有「關鍵數據」存儲於中國的伺服器內。石油控制權衝突禍亂世界幾十年之久。目前還沒人擔心數據引發的戰爭,但與石油相比,數據經濟引發衝突的潛力有過之而無不及。

推薦閱讀:

用Cython來提高Python代碼速度 [一]
比預測未來更重要的,是改變未來 | 數據科學公開課
Data Science 引擎
數據科學導論:前言
灣區超級獨角獸們怎麼玩轉數據科學

TAG:數據科學 | 新經濟 | 數據分析 |