標籤:

大數據漫談(二) -- 數據來源

物聯網時代,每個人/設備都是數據的產生者,也是數據的使用者。在線聯接是數據化的過程,互動是數據的來來往往,結網協同所需的能量無不來自於數據的張力與動能。 --曾教授

上文說到,既然談大數據,那麼大數據的第一要務就是需要有數據,否則,何來「數據是DT時代的第一生產要素」。大數據時代的數據,跟農耕時代的土地,工業時代的資本一樣重要。

數據來源於哪裡,哪裡會產生數據?

數據無處不在,人類自從發明文字開始,就開始記錄各種數據,只是保存的介質一般是書本,而且難以分析、加工。隨著計算機與存儲技術的快速發展,以及萬物數字化的過程(音頻數字化,圖形數字化等),出現了數據的爆發,而且數據爆發的趨勢,隨著萬物互聯的物聯網技術的發展,會越來越迅速。同時,對數據的存儲技術,處理技術的要求也會越來越高。

據IDC出版的數字世界研究報告顯示,2013年人類產生、複製和消費的數據量達到4.4ZB。而到2020年,數據量將增長10倍,達到44ZB。大數據已經成為當下人類最寶貴的財富,怎樣合理有效的運用這些數據,發揮這些數據應有的作用,這是大數據將要做到的。

早期的企業也比較簡單,關係型資料庫中存儲的數據,往往是他們全部的數據來源,這個時候他們對應的大數據技術,也就是傳統的OLAP數據倉庫解決方案。因為關係型資料庫中基本上是他們的所有數據,往往大數據技術也比較簡單,直接從關係型資料庫中獲得統計數據,或者最多建一個統一的OLAP數據倉庫中心。

通過淘寶的歷史來看,早期的數倉數據基本來源於主業務的OLTP資料庫,數據不外乎用戶信息(通過註冊、認證獲取),商品信息(通過賣家上傳獲得),交易數據(通過買賣行為獲得),收藏數據(通過用戶的收藏行為獲得)。從公司的業務層面來看,關注的也就是這些數據的統計,比如總用戶數,活躍用戶數,交易筆數、金額(可鑽取到類目,省份等),支付寶筆數、金額等等。因為這個時候沒有營銷系統,沒有廣告系統,公司也只關注用戶,商品,交易的相關數據,這些數據的統計加工,就是當時淘寶大數據的全部。

但是,隨著業務的發展,比如個性化推薦,廣告投放系統的出現,會需要更多的數據來做支撐,而資料庫的用戶數據,除了收藏,購物車是用戶行為的體現,但是,用戶的其它行為,如瀏覽數據,搜索行為等,這個時候是完全不知道的。

這裡就需要引進另外一個數據來源,日誌數據,記錄了用戶的行為數據,可以通過cookie的技術,只要用戶登錄過一次,就能跟真實的用戶取得關聯。比如通過獲取用戶的瀏覽行為,購買行為,進而可以給用戶推薦他可能感興趣的商品,看了又看,買了又買就是基於這些最基礎的用戶行為數據做的推薦演算法。這些行為數據還可以用來分析用戶的瀏覽路徑,瀏覽時長,這些數據是用來改進相關淘寶產品的重要依據。

2009年,無線互聯網飛速發展,隨著基於native技術的App大規模的出現,用傳統日誌方式獲取無線用戶行為數據已經不再可能,這個時候也湧現了一批新的無線數據採集分析工具,比如友盟,Talkingdata,淘寶內部的無線速讀等等,通過內置的SDK,他們可以統計到native上的用戶行為數據。

數據是統計到了,但是,新的問題也誕生了,比如我在PC上的用戶行為,怎麼對應到無線上的用戶行為,這個是脫節的,因為PC是PC上的標準,無線又採用了無線的標準,如果有一個統一的用戶庫,比如不管是登錄名,郵箱,身份證號碼,手機號,imei地址,mac地址等等,來唯一標識一個用戶,不管是哪裡產生的數據,只要是第一次關聯上來,後來就能對應上。

這就涉及到了一個重要的話題 -- 數據標準,數據標準不僅僅是解決企業內部數據關聯的問題,比如一個好的用戶庫,可以解決未來大數據關聯上的很多問題,假定公安的數據想跟醫院的數據進行關聯打通,發揮更大的價值。但是,公安標識用戶的是身份證,而醫院標識用戶的數據則是手機號碼,有了統一的用戶庫,就可以通過idmapping技術簡單的把雙方的數據進行關聯。

數據的標準不僅僅是企業內部進行數據關聯非常重要,跨組織,跨企業進行數據關聯也非常重要,而業界有能力建立類似用戶庫等數據標準的公司並不多,阿里巴巴就是其中之一。政府其實很早也就看到這裡的價值,早在2002年7月,國家信息化領導小組第二次會議審議通過了《關於我國電子政務建設的指導意見》(以下簡稱《意見》),根據《意見》的指導原則,國務院信息化領導小組辦公室制定了《我國電子政務一期工程建設方案》,該方案確定了「十五」期間重點建設的四大基礎性、戰略性資源資料庫——「人口基礎信息庫」、「法人單位基礎信息庫」、「自然資源和空間地理基礎信息庫」、「宏觀經濟信息資料庫」,簡稱四大基礎信息庫。

大數據發展到後期,當然是數據越多越好,企業內部的數據已經不能滿足公司的需要,比如還是淘寶,想要對用戶進行一個完整的畫像分析,比如想獲得用戶的實時地位位置,愛好,星座,消費水平,開什麼樣的車等等,用於精準營銷。淘寶自身的數據是不夠的,這個時候,很多企業就會去購買一些數據(有些企業也會自己去爬取一些信息,這個相對簡單一點),比如阿里購買高德,友盟,又另外採購微博的相關數據,用於用戶的標籤加工,獲得更精準的用戶畫像。

但是,數據交易並沒有這麼簡單。

因為數據交易涉及到幾個非常大的問題:

1)是怎麼保護用戶隱私信息

歐盟已經出台了苛刻的數據保護條例,美國也對出售客戶數據的運營商施以重罰,還處在萌芽狀態的中國大數據行業,怎麼確保用戶隱私信息不被泄漏呢?對於一些非隱私信息,比如地理數據,氣象數據,地圖數據進行開放、交易、分析是非常有價值的,但是一旦涉及到用戶的隱私數據,特別是單個人的隱私數據,就會涉及到道德與法律的風險。

數據交易之前的脫敏或許是一種解決辦法,但是,並不能完全解決這個問題,因此,阿里也提出了另外一種解決思路,基於平台擔保的「可用不可見」技術。比如阿里雲作為交易平台,跟支付寶一樣是一個中間擔保機構,雙方的數據上傳到阿里雲大數據交易平台,雙方可以使用對方的數據,以獲得特定的結果,比如通過上傳一些演算法,模型而獲得結果,雙方都不能看到對方的任何詳細數據。

2)是數據的所有者問題

數據作為一種生產資料,跟農業時期的土地,工業時期的資本不一樣,使用之後並不會消失,如果作為數據的購買者,這個數據的所有者到底是誰?怎麼確保數據的購買者不會再次售賣這些數據?或者購買者加工了這些數據之後,加工之後的數據所有者是誰?

3)是數據使用的合法性問題

大數據營銷中,目前用得最多的就是精準營銷。數據交易中,最值錢的也是個人數據。我們日常分析中做的客戶畫像,目的就是給海量客戶分群、打標籤,然後針對性地開展定向營銷和服務。然而如果利用用戶的個人信息(比如年齡、性別、職業等)進行營銷,必須事先徵得用戶的同意,才能向用戶發送廣告信息呢,還是可以直接使用?

所以,數據的交易與關聯使用,就必須解決數據標準,立法以及監管的問題,在未來的時間裡,不排除有專門的法律,甚至專業的監管機構,如成立數監會來監管數據的交易與使用問題。如果真的到了這一天,那也是好事,數據要流通起來才會發揮更大的價值,如果每個企業都只有自己的數據,就算消除了企業內部的信息孤島,還有企業外部的信息孤島。

如果能合理,合適的使用多方數據,就會發生所謂「羊毛出在豬身上」的事情,比如阿里小貸,使用的是B2B以及淘寶的數據。這樣情況下,對豬(B2B,淘寶來)說,這是一種商業場景中的海量數據的溢出效應,而對羊(螞蟻小貸)來說,是在較低的成本下、不同維度的數據集合後,發生化學反應的價值躍升的過程,這是大數據時代智能商業的典型特徵。

這才是大數據的價值,也是在這時,我們才會更清楚,我們正在迎來的這個新時代以「數據」命名的理由
推薦閱讀:

TAG:大数据 |