標籤:

北大光華王漢生教授萬字長文,講透數據治理問題!

2018-03-26 狗熊會 王漢生

數據治理:

數據安全與價值的制度保障

摘 要

2018年3月16日,中國銀監會發布了《銀行業金融機構數據治理指引(徵求意見稿)》,就相關數據治理問題,向全社會公開徵求意見,至此銀行業金融機構全面數據治理的大幕拉開。而在大洋彼岸,關於Cambridge Analytica濫用Facebook 5000萬用戶數據的醜聞正鬧得沸沸揚揚,並持續發酵。這一切都說明,數據治理已經成了一個極其重要、亟待解決的重大社會問題。一個科學合理的數據治理規範,是數據安全與價值的制度保障,是數據產業健康發展,甚至是國家人工智慧戰略實施不可或缺的前提條件。本文嘗試根據自己的有限了解,提出一個數據治理的大概理論框架,希望能夠為相關工作提供一些思路參考。

在我看來,所謂數據治理,就是對數據資產的治理,屬於公司治理的範疇,是對數據資產所有相關方利益的協調與規範。具體內容包括但不局限於:(1)數據資源資產化;(2)數據確權與合規;以及(3)價值創造與人才培養。

第一、數據資源資產化。數據不等於數據資產,數據就是電子化記錄,僅此而已。數據並不天生具備資產屬性。資產需要能夠給企業帶來預期收益。因此,只有滿足一系列必要條件的數據資源,才可能成為數據資產。

第二、數據確權與合規。隱私保護問題越來越受重視。所謂隱私保護就是對隱私數據的保護。最理想的情況是,能夠在產權層面,確立相關個人作為隱私數據的合法的唯一擁有者。這就需要一個法律基礎:對數據產權(包括但不局限於隱私數據)的確定,也就是數據確權。如果暫時做不到數據確權,那麼至少要做到,對數據實際控制者的行為嚴加管束,做到合法合規。

第三、價值創造與人才培養。對價值創造而言,數據治理不應該關注太過具體的業務問題,因為業務形態千變萬化,具有極強的不確定性,不可能通過一成不變的規章制度去治理。相反,數據治理應該關注人才團隊的建立與培養,這才是價值創造的沃土。只要精通數據思維的人才沃土在,就一定會開出鮮艷的花朵,結出豐碩的果實。

一、背景介紹

2018年3月16日,中國銀監會發布了《銀行業金融機構數據治理指引(徵求意見稿)》,就相關數據治理問題,向全社會公開徵求意見。至此銀行業金融機構全面數據治理的大幕拉開。該指引要求銀行業金融機構將數據治理納入公司治理範疇,並根據數據治理情況,評價公司治理水平,甚至與監管評級掛鉤。該指引還鼓勵銀行業金融機構開展制度性探索,並設立專業崗位,為人才團隊的培養建設提供了制度保障。

這是一個非常積極而且重要的事件,對數據產業(不僅限於銀行業金融機構)的健康發展具有重大意義。它帶來兩個重要啟示。

第一、從產業政策層面,作為銀行業金融機構的主管機構,中國銀監會對數據治理的重視與推動,必將對數據產業產生重大而且積極的影響。其影響也許不僅僅局限於銀行業金融機構,還包括其他數據相關的產業。

第二、從理論層面,該指引的發布,驅動學術界從理論上思考:數據治理的內涵到底是什麼?它和公司治理之間的關係到底怎樣?數據治理的獨特之處何在?需要一個相對統一的理論框架,便於開展理論研究,並形成同產業實踐的良好互動。

為此,我嘗試根據自己的有限了解,提出一個數據治理的大概理論框架,希望能夠為相關工作提供一些思路參考。更重要的是,希望能夠起到拋磚引玉的作用,吸引更多的政府、產業、學術專家,一起來關注這個重大問題。一個科學合理的數據治理規範,是數據產業健康發展,甚至是國家人工智慧戰略實施不可或缺的制度保障。

接下來,將從幾個方面進行討論。第一、銀監會的指引里明確指出,數據治理應該納入公司治理的範疇。為此,需要首先對公司治理有基本的了解。第二、數據作為一種新興資產,它的治理工作,有哪些獨特、重要,且具體的內容?第三、數據資產價值的創造離不開專業的人才。因此,人才團隊的建立與培養也至關重要。

二、公司治理與數據治理

中國銀監會《銀行業金融機構數據治理指引(徵求意見稿)》第四條(數據治理總體要求)明確指出:「銀行業金融機構應當將數據治理納入公司治理範疇」。為此,需要先簡單了解一下:什麼是公司治理(Corporate Governance)?

為了說明這個問題,虛構一個「老王賣耗子葯」的搞笑案例。假設老王開了一個小公司,叫做「老王科技」,專業售賣耗子葯。老王科技就一個員工,那就是老王自己。老王既是唯一股東、董事長、CEO,又是市場總監、銷售骨幹、前台接待,全都是老王一個人干。那麼,老王科技的業績好壞,就看老王自己的經營能力是否夠強。無論老王科技的業績是好還是壞,都只跟老王一個人相關,跟其他人無關。因此,這是一個純粹的經營問題,跟公司治理無關。為什麼?因為:「老王科技」這個資產(即:公司)的所有者(老王,唯一股東兼董事長),以及實際經營者(還是老王自己,兼任CEO、市場總監、銷售骨幹、前台接待等眾多職務),是100%同一個人。因此,實際經營者(老王,CEO、市場總監、銷售骨幹、兼前台接待),在他的能力範圍內,一定會100%盡全力為股東(還是老王,唯一股東兼董事長)努力奮鬥,不需要任何制度鞭策。如果經營不善,老王自己負全責,沒法怨天尤人。這樣的公司,只有經營問題,沒有治理問題。

但是,老王科技發展的太好了,以至於必須開分店!一不小心,在北京城裡開了100家分店,請問:老王自己一個人還忙得過來嗎?顯然忙不過來了。怎麼辦?老王必須為每個分店,請店長,請員工。為了協調這100家分店的市場行為,還在總店聘請了市場總監。為了協調100家分店的貨物配送問題,還在總店安排了物流主管。這麼多員工,他們的招聘、離職、五險一金,也是一個不小的事情,迫於無奈,老王還聘請了一個HRD。好傢夥,這麼七七八八算下來,總店的員工人數也不少了,太操心了。搞得老王連搓麻將、玩德撲、打電游的時間都沒了。這可嚴重影響了老王的生活質量。於是,老王又重金聘請了一個海歸MBA來當CEO(Michael)。

不知不覺中,老王科技的員工數目,已經從原來老王1人,變成300人了。這時候,新的問題就來了。作為「老王科技」的唯一股東,老王心心念念希望老王科技的利益(也就是自己的股東利益)越來越好。但是,員工的心思可不一樣。無論是高管CEO、中層各種總監、還是最下面的店長店員,每個人的利益跟老王都有交集(畢竟老王科技做得好,大家才有工資獎金),但是又不盡相同(畢竟老王科技業績,跟員工個人利益,並不是完全確定性關係)。於是,每個員工,自覺或者不自覺地,都有一點自己的小心眼兒。這不是一個好現象,也不是一個壞現象,這是一個太正常不過的中性現象。對於這個現象,如果利用得當,可以成為公司發展的巨大動力。但是,如果治理失控,就會極大地影響公司業績,影響公司所有相關方的權益。這時候,公司治理就變得極其重要了。

由此可見,所謂公司治理,在一個相對狹義的層面,就是要解決公司實踐中,資產所有者(股東老王)和實際經營者(CEO Michael,中層大張,店長小趙,N多店員)的分離所產生的矛盾。如果沒有良好的治理制度保障,公司資產(例如:老王科技的分店)的實際經營者(店長+店員),極有可能做出傷害公司利益的行為(例如:利用老王科技的分店,私下兜售老李科技的產品)。這就是公司治理中經典的委託代理問題,也是現代金融學研究的核心內容之一。

如果老王科技有融資上市計劃,公司治理問題會變得更加嚴重。以前老王科技就老王一個股東,他對公司中所有事物有絕對的生殺大權。但是,現在為了企業高速發展,老王科技經歷了A到Z無窮輪融資,最後終於在海外上市。等到上市的那一天,老王在公司股權中的佔比,已經不到10%,而其他的股權散落在各個投資機構,甚至散戶手中。儘管通過雙層的股權結構設置,老王仍然擁有在董事會的絕對控制權。但是,此時老王的影響力,肯定不如以前了。以CEO Michael為首的管理團隊(公司資產的實際經營者),具備了很強的挑戰老王的能力,散戶就更別提了。管理團隊具備了更大的用公司資產為自己謀私利的可能。此時,如果沒有科學合理的制度設計,老王科技的前途堪憂。

目前為止,老王科技的治理問題只牽涉到兩方利益,即:股東方(資產所有者)利益與管理方(實際經營者)利益。如果有第三方介入,老王科技的治理問題會變得更加複雜。例如,老王科技的快速發展,帶來一個嚴重後果:環境污染。為了生產劇毒耗子葯,老王科技的生產製造過程,不可避免的涉及到大量有毒有害的化學原料以及廢棄物,對環境產生了很大的傷害。當地政府、居民,以及環保主義者都對此表示強烈的不滿。為了解決該問題,老王科技同當地政府、居民,以及環保主義者,建立了良好的溝通機制,積極採納最新的低排放生產工藝,找到了各方都滿意的解決方法。此時,老王科技協調規範的不僅僅是股東、管理層之間的利益,還包括外部第三方(當地政府、居民、環保主義者)。從一個更加廣義的範疇看,這也可以被看作是公司治理的內容。

因此,從一個更加廣義的角度看,公司治理就是要對公司(作為一個資產)的所有相關者(不僅僅局限於股東和管理層,還包括第三方)利益的協調與規範。

回到數據治理問題的討論,請問:數據治理,治理什麼?治理的對象是什麼?是數據嗎?答:不是。數據作為一種電子化記錄,無處不在,大多數情況下都無關企業重大利益,並沒有治理的必要。因此,數據治理的對象必須是重要的數據資源,是關乎企業重大商業利益的數據資源。這樣的數據資源可以稱其為「數據資產」。關於數據資產更加詳細的討論將在下一節進行。這裡不難獲得一個結論:所謂數據治理,不是對數據的治理,是對能夠為企業帶來商業利益的數據資產的治理。數據資產顯然是公司資產的一部分。因此,無論是從狹義的角度還是廣義的角度看,數據治理應該屬於公司治理的範疇所有關於公司治理的典型問題,都可能在數據資產上出現。公司資產會出現所有者與實際經營者分離的問題,數據資產更會出現。數據資產的所有者,跟實際使用經營者,幾乎從來就不是同一個人,或者至少極具爭議。公司資產的實際經營者(例如CEO),有可能用公司資產謀取私利;數據資產的實際控制者(例如資料庫管理員),更有便捷的條件,通過倒賣數據,謀取私利。公司的利益有可能同外部第三方(例如環保主義者)發生衝突;這個問題對數據資產而言更加突出。以電商平台為例,除了股東、管理層以外,相關數據資產有一個天生的第三方——消費者。股東管理層對數據的利益訴求,極容易同消費者這個第三方衝突。作為衝突的焦點,數據確權與隱私保護首當其衝。

總結一下,所謂「數據治理」,不是對「數據」的治理,而是對「數據資產」的治理,是對數據資產所有相關方利益的協調與規範。

三、數據資源資產化

數據治理是關於數據資產的治理,那麼數據資產又是什麼?行業中有一個廣泛流傳的誤解,很多朋友不假思索地認為:「數據就是資產!」 錯!數據不等於數據資產。所謂數據就是電子化記錄,電子化記錄就是數據。但並不是任何數據都可以被稱為資產,因為數據資產的要求更高,只有數據具備了資產屬性後,才可以被稱為數據資產。那麼,基礎會計學中,對資產的定義是什麼?其對數據資產的定義能有什麼啟發?

新《企業會計準則-基本準則》第20條規定:「資產是指企業過去的交易或者事項形成的、由企業擁有或者控制的、預期會給企業帶來經濟利益的資源。」如果照貓畫虎修改一下,不難獲得一個關於數據資產的定義:「數據資產是指企業過去的交易或者事項形成的,由企業擁有或者控制的,預期會給企業帶來經濟利益的數據資源。」由此可見,數據要成為數據資產,至少要滿足3個核心必要條件:(1)數據資產應該是企業過去的交易或者事項形成的;(2)企業擁有或者控制;(3)預期會給企業帶來經濟利益。

其中(1)似乎不是問題。企業數據資源的獲得無外乎兩種途徑。第一種途徑,是自己過去正常經營的一個自然積累與產出,或者由於業務實施的必要而被實際控制。例如,對電商網站而言,網路瀏覽日誌數據、消費購買數據自然而然就產生了;為了給消費者快遞商品,消費者的姓名、銀行卡、手機號、地址等數據也被記錄了下來,被電商網站實際控制。第二種途徑,就是資源互換。可能是A企業通過貨幣(或者等價物)購買了B企業的數據,也可能是A企業的數據同B企業的數據做了等價置換。假設相關操作合法合規,那麼這種途徑獲得的數據資源也符合數據資產定義的條件(1)。

但是,(2)似乎是一個很大的問題。根據核心條件(2),數據要成為資產,要麼被企業合法合規地擁有,要麼被企業合法合規地控制。對於普通資產而言,這似乎不是一個很大的問題,因為普通資產的產權非常明晰。但是對數據資產而言,產權非常不容易界定。還是以電商網站為例,網站積攢大量的關於消費者的消費記錄數據。這些數據的實際控制者是電商網站,但是其合法的產權方是誰?這不是一個容易回答的問題。對於該數據的生產,電商網站提供了軟硬體設備,似乎貢獻巨大。但是,這些數據的內容,卻由消費者生產,並且關乎消費者隱私,消費者也有無可爭議的權益。這其中的矛盾衝突,如何通過科學合理的制度予以規範協調,這是一個極具挑戰,需要大智慧的問題。關於數據確權與合規這個重要問題,後面一節還會進一步討論。

最後,(3)似乎也不是一個容易解決的問題。數據要成為資產,就需要能夠給企業帶來可預期的經濟收益,否則就不是資產。因此,那些被大量存儲,產生可觀存儲成本,但是卻不能給企業帶來可預期經濟收益的數據資源,也不能被稱為數據資產。只有那些能夠給企業帶來可預期經濟收益的數據資源,才能夠被稱為數據資產。什麼樣的數據資源才能夠產生可預期的經濟收益?這需要一些必要條件。

第一、記錄電子化。電子化的記錄才是數據,否則連數據都不算,怎麼能產生可預期的經濟收益,又怎麼能從數據資源變成數據資產?請不要忽視記錄電子化這個卑微的工作,其意義極其重大。因為相關行業中,大量的歷史記錄都沒有被電子化,而這些記錄中蘊藏著海量的寶貴信息。最典型的例子莫過於:病歷!雖然現在的醫院大量採用電子化病歷,但是過去幾十年里可都採用的是紙質病歷。這些病歷上寫滿了只有醫生護士才看得懂的天書。這樣的紙質病歷,一個大型三甲醫院,就有上億份之多!裡面蘊藏了無比珍貴的臨床數據。不把這些記錄電子化,就成不了數據,支撐不了科學研究,支撐不了規模化應用,產生不了可預期的經濟價值,因此不是數據資產。

第二、數據聚合。統一的數據聚合平台,是數據資產化的優質條件。如果沒有統一的數據聚合平台,每次不同的業務需求,都會產生不一樣的數據提取、整合、清理需求。這些需求常常需要和不同的業務部門溝通,在不同的資料庫上直接操作。這需要高昂的溝通成本,以及不平凡的資料庫操作技能,而這些技能往往是數據需求方(例如:業務方)不具備的。最後只能拜託技術團隊去完成,而技術團隊的時間成本也非常高昂。過高的數據提取整理成本,會抵消數據資源原本應該產生的經濟收益,成為數據資源資產化的巨大障礙。而要消除該障礙,一個統一規範的數據聚合平台不可或缺。

第三、質量保證。數據分析中有一句名言,叫做:「垃圾進去,垃圾出來 (Garbage in, garbage out)」。它講的道理是,如果數據本身質量很差,如同垃圾一樣,還用做模型輸入,那麼無論模型有多高大上,最後出來的結果仍然是垃圾,沒有任何價值。可見數據質量的重要性。數據質量主要表現在以下幾個方面:(1)真實性。虛假數據是沒有任何意義的;真實的數據,常常分散在各個職能部門中。如果沒有合理且強力的制度保障,正常情況下,沒有任何人願意主動貢獻自己的真實數據,他的利益何在?因此,合理而且強力的制度設計非常重要。(2)完整性。該收集整齊的數據要盡量收集整齊。一套數據對被記錄對象的所有相關指標的完整程度越高,相關模型的預測精度就會越好,數據資源就越有價值。相反,過多的缺失數據會極大地傷害相關模型的預測精度,進而限制數據的應用能力。(3)精準性。有三層含義:第一層含義是數據的邏輯要合理。例如:對於大氣數據而言,由於PM2.5是PM10的一部分,因此,相關數據必須滿足PM10的數值要大於PM2.5,否則就不合邏輯,是錯誤數據。第二層含義是數據的細緻程度。同樣的數據,不同的採集方式,不同的存儲方式,帶來的數據細緻程度是不一樣的。以車聯網數據為例,數據採集應該細緻到每秒?還是每15秒?在不考慮成本的情況下,顯然越細緻越好。第三層含義是數據的精確程度。以定位數據為例,應該精確到10米以內?還是1米以內?在不考慮成本的情況下,顯然數據精度越高,對於業務的支撐能力越強。

四、數據確權與合規

隨著社會的發展,隱私保護問題越來越受重視。所謂隱私保護就是要保護關乎個體隱私的數據。個人隱私數據之所以應該受到保護,就是因為這些數據的濫用有可能對個人造成巨大的財產甚至人身傷害。所謂隱私保護,其實就是對隱私數據的保護。一個最理想的情況是,能夠在產權層面,確立相關個人作為隱私數據的合法的唯一擁有者。這就需要一個法律基礎:對數據產權(包括但不局限於隱私數據)的確定,也就是數據確權。如果暫時做不到數據確權,那麼至少要做到,對隱私數據實際控制者的行為要嚴加管束,做到合法合規。要避免,因為數據資產的錯誤使用,給任何相關方造成不必要的損失。因此,相關的數據治理規則非常重要,主要關注幾個方面。

第一、數據確權。數據一旦成為資產,就一定有產權方,或者實際控制人,可以把他們統稱為主人。請問:數據資產的主人到底是誰?如同實物資產一樣,如果一不小心,錯用了別人的資產,可能會產生嚴重的法律後果。對於實物資產,確權似乎不是一個問題。因為,無論是桌椅板凳,還是電腦印表機,它們在產權層面是非常明晰的。製造商獨立製造了這些產品,整個製造過程跟消費者無關,製造商獨享產權。製造完成後,消費者通過付費,獲得了這些實物資產的產權。但是,數據的生產過程太不一樣了。以電商為例,大量的消費者數據被電商平台所掌控(例如:消費者的個人信息、購物信息等),電商平台事實上在經常使用這些數據為自己的業務服務(例如:支撐電商平台自己的個性化推薦)。甚至,不負責任的電商可能通過各種灰色交易將數據售賣給了莫名其妙的第三方。但是,這些數據資產的生產過程,可不是電商平台自己能夠完成的。電商平台提供了「平台」,在這個平台上,消費者通過註冊、瀏覽、訂閱、購買、評論等一系列行為生產了相關的數據。因此,整個數據資產的生產過程,既有電商平台的貢獻(在線場景、軟硬體環境),也有消費者的貢獻(註冊、瀏覽、訂閱、購買、評論)。這樣的數據資產,其產權歸屬如何確定,其控制權應該如何治理?主人到底是誰?這是一個極具挑戰性,而又非常重要的問題。

第二、數據採集。大量的數據採集來自業務實踐,但相應的數據採集過程是否合法合規?有幾個基本的原則可供參考。第一個原則是「合法正當原則」。顯然,非法採集的數據,通過不正當途徑獲得的數據,是不能採用的。第二個原則是「知情同意原則」。數據作為一種電子化記錄,大量記錄了關乎個人隱私(例如:姓名、手機號、身份證)或者商業機密(股權結構)的信息,因此非常敏感。採集如此敏感的信息,被採集方充分的知情、同意,並且授權,是必不可少的先決條件。第三個原則是「必要性原則」。由於數據可能涉及個人隱私或者商業機密等敏感信息,因此,數據採集應該遵循越少越好的原則。例如,一個電商平台的APP,採集用戶的姓名、銀行卡、手機號、地址等信息,非常必要。否則,無法完成在線支付、線下快遞等必要業務。但是,如果該APP同時採集你的社交圈信息,還要看你的電話簿記錄,這似乎就違背了數據採集的必要性原則。

第三、使用場景。即使企業對數據擁有100%的產權,或者合法合規的實際控制權,也不能對數據不分場景地任意使用。這個道理其實好懂。假設你擁有100個雞蛋,你對這100個雞蛋擁有100%的產權。這是否代表你可以對雞蛋做任意處置?不可以!任何處置方式,都必須滿足一個基本前提:不對他人造成不必要的傷害。例如,你可以把這100個雞蛋變成:煮雞蛋、煎雞蛋、蒸雞蛋。但是,你不能拿雞蛋去大馬路上扔汽車的擋風玻璃。這可就太危險了,容易引起交通事故,給他人造成傷害。由於數據記錄了大量關乎機構或者個人的敏感信息,因此數據資產的使用場景,要慎之又慎!坊間傳聞,騰訊內部對QQ和微信的聊天記錄(數據)給予最高的保密級別,稱為「高壓線」,不準任何人碰這部分數據。原因何在?這部分數據涉及到太多的用戶隱私。這是一個負責任企業自我約束的好例子。因此,數據治理的一個重要工作就是定義數據的使用場景。什麼樣的數據,可以應用於什麼場景?支持什麼產品?誰來使用?使用的前提條件?都需要認真思考,需要必要的規章制度。

第四、使用手段。接下來應該關注的是數據的使用手段。即使企業對於數據擁有了100%的產權,也確定了一個合法合規的使用場景,也要對數據的使用手段非常謹慎。因為數據記錄了敏感信息,因此對數據的每次加工使用,都有泄密的風險。為此,要對數據的使用手段做出必要的合規要求。這裡繼續沿用上面的例子。你對這100個雞蛋擁有100%的產權,並且有一個合規的使用場景:餐廳。餐廳售賣各種加工後的雞蛋,例如:煮雞蛋、煎雞蛋、蒸雞蛋。結果某吃貨發現,你給他提供的單面煎雞蛋裡面居然有三個蛋黃,這是一個極少見的「三黃蛋」!沒想到,該吃貨是雞蛋大數據的高手,經過他的大數據分析,最後判斷,世上能夠產三黃蛋的老母雞隻能是隔壁家老李雞場的78號老母雞。該吃貨把這個消息在微博微信上大肆宣揚,後果是老李雞場78號老母雞的隱私沒了。其他老母雞都知道78號下三黃蛋,覺得非常奇葩,超級鄙視,議論紛紛。78號老母雞因此患上了嚴重的抑鬱症,失去了產蛋能力,最後被主人老李燉成了一鍋鮮美的雞湯,下場好慘!這個例子說明,粗心大意的數據使用手段,容易產生隱私泄露的風險。因此,必要的隱私保護(或者加密)技術,應該被積極採納。例如,當初廚房的雞蛋治理制度規定:不許加工單面煎雞蛋(能看出三個蛋黃來),而是要求蛋黃蛋清必須打碎攪和均勻後才能做進一步加工(例如:蒸雞蛋、炒雞蛋)蛋,這並不會對雞蛋的美味產生太大的影響,但是卻能夠極小化三黃蛋(一個敏感信息)被識別的可能性,因此78號老母雞的隱私也被保護了。

第五、數據安全。由於大量數據關乎個人隱私、商業機密,因此數據安全是一個非常重要的問題。現實生活中的數據泄露比比皆是。我自己的經驗是,只要孩子參加了一個課外培訓班(例如:英語),其他同行培訓機構就會跟上來。曾幾何時,有租房經驗的朋友也知道,只要在任何一個房地產中介留下過租房信息,很快就有更多的中介找上門來。我們的個人手機號碼,如此重要的個人數據,是如何泄露的?數據安全是整個數據產業正在面臨的重大問題!數據安全的保障需要必要的軟體和硬體。但是,最需要的是一個合理的數據治理制度。該制度應該對數據從產生、使用、到消亡的整個鏈條進行嚴格治理。具體內容包括但不局限於:存儲安全管理、用戶匿名化、訪問許可權管理等。

五、價值創造與人才培養

數據資產作為一種資產的必要條件是產生可預期的經濟收益,或者商業價值。但是,如何才能讓數據資產創造出最大的商業價值,相應的制度保障又是什麼?

孤立而純粹的數據沒有價值,哪怕是聚合在統一的數據平台上的數據資產也沒有價值。數據價值的彰顯必須依賴於具體的、帶有不確定性的業務場景。為此,企業需要:(1)尋找帶有不確定性的業務場景,因為只有「不確定性」這個亂世,才有成就「價值」這個英雄的機會;(2)將該業務問題轉化成為一個,關於Y(因變數)和X(自變數)的數據可分析問題。從此,抽象的業務問題,變成了具體的數據分析技術問題。這是數據資產價值創造的基本套路。為此,企業的經營管理團隊,從上到下,都需要有數據思維的能力,尤其需要有回歸分析的思想。如果業務團隊缺乏數據思維能力,就無法把錯綜複雜的業務問題,轉換成為技術團隊擅長的數據可分析問題;如果技術團隊缺乏數據思維能力,就無法準確理解業務需求,無法設計正確的數據產品;如果企業中層缺乏數據思維能力,樸素的數據價值觀就無法在企業內部樹立,回歸分析標準的Y X語言就難以普及;如果企業高層缺乏數據思維能力,就無法從戰略的高度,理解數據資產的商業價值,將失去開拓優質數據業務戰略新方向的能力,並造成企業價值在資本市場的低估。

由此可見,數據資產價值創造,不是一個人兩個人的事情,是企業全員團隊的事情。需要企業各個崗位的員工、管理者都深諳數據商業價值之道,並在各自的業務實踐中,自覺(甚至不自覺地)尋找可以彰顯數據價值的業務機會。為此,企業需要全員的,以回歸分析思想為核心的數據思維能力。由此可見,價值創造的過程,本質上是一個數據思維培養的過程,是一個全員人才培養的過程。為此,一方面需要對現有人員的數據思維能力做全面的培養提升,另一方面可以考慮在各個核心骨幹的業務部門設立專門的崗位。該崗位人員的主要職責不是業務,不是數據,更不是技術,而是應該承擔鏈接業務與數據的橋樑作用。為此,相關人員需要對業務、數據、技術都有足夠的了解。對專業深度要求低一些,但是專業廣度要求更高,而這樣的人才就是商業分析人才。

由此可見,對數據資產的價值創造而言,數據治理應該關注的不是太過具體的業務問題。真實的商業環境千變萬化,帶有極強的不確定性,不可能通過一成不變的規章制度去治理。以銀行業金融機構為例,站在任何一個時間點,都無法絕對準確預測,未來的商業形態會怎樣?業務內容會怎樣?相應的數據分析會怎樣?因此,作為一個綱領性的制度設計,數據治理不應該過分關注具體業務問題。相反,應該關注人才團隊的建立與培養,這才是價值創造的沃土。由於商業環境的變遷,業務形態的變化,數據價值的多樣性,人們對於這片沃土上會結出什麼花朵,什麼果實,並不確定。但是,只要精通數據思維的人才沃土在,就一定會開出鮮艷的花朵,結出豐碩的果實。因此,培養人才,培養具備數據思維能力的人才,培養企業從上到下精通回歸分析思想的人才,並為此提供科學的制度保障,這才是數據資產治理在價值創造這方面應該關注的重點。

六、討論與總結

就在本文形成的過程中,大洋彼岸傳來一個令人震驚的消息。據媒體報道,一家叫做劍橋分析(Cambridge Analytica)的數據公司,違規使用了5000萬Facebook用戶數據。通過對這些數據分析,預測每個人的政治傾向,然後動用心理學手段,形成干預的內容,最後通過Facebook的廣告信息,將干預內容推送到用戶面前,也許能達到不知不覺中改變一個人政治傾向的目的。作為一個普通的讀者,我們無法判斷這樣做的實際效果。但是,可以確認的一點是,Facebook的數據治理有重大缺陷。Facebook用戶數據由Facebook實際控制著,並將該數據應用於其廣告系統,為Facebook帶來可觀收益。對於這樣的數據資源確權如果太困難,那麼至少要做到合法合規。為此,Facebook應該對數據的使用場景(例如:政治宣傳或干預),以及使用手段(例如:通過廣告系統推送個性化信息),建立更加嚴格的規章制度,加強數據治理。最後,想用Facebook創始人馬克扎克伯格就Cambridge Analytica數據違規使用問題的部分聲明作為結尾,同關心數據產業健康發展的同行們共勉:

I started Facebook, and at the end of the day Im responsible for what happens on our platform. Im serious about doing what it takes to protect our community. While this specific issue involving Cambridge Analytica should no longer happen with new apps today, that doesnt change what happened in the past. We will learn from this experience to secure our platform further and make our community safer for everyone going forward.

王漢生,北京大學光華管理學院商務統計與經濟計量系教授、系主任。國際統計協會會員(International Statistical Institute),美國統計學會(American Statistical Association),美國數理統計研究員(Institute of Mathematical Statistics),英國皇家統計協會(Royal Statistical Society),以及泛華統計學會(International Chinese Statistical Association)會員。

發表英文學術論文五十餘篇,中文論文近二十篇。合著英文專著1本,獨立完成中文教材2本。先後擔任多個學術刊物副主編(Associate Editor)。這些刊物包括:The Annals of Statistics (2008—2009),Computational Statistics & Data Analysis (2008—2011),Statistics and its Interface (2010至今),Journal of the American Statistical Association (2011至今), 以及Statistica Sinica (2011至今)。現主要理論研究興趣為:高維數據分析、變數選擇、數據降維、極值理論、以及半參數模型。主要應用研究興趣為:搜索引擎營銷、社會關係網路。

weixin.qq.com/r/1EPUzJT (二維碼自動識別)


推薦閱讀:

大數據必備知識:數據的分類方式
從頭學習大數據培訓課程 數據倉儲工具 hive(四)hive 的 select、union、SQL 依賴並發執行
大數據入門書籍有哪些(二)
[英語句翻6-10]讓英語學習不再痛苦

TAG:大數據處理 |