大數據時代從數字化到數據化的演變

大數據時代從數字化到數據化的演變

計算機及電子學的發展讓信息化、網路化等說法變得流行起來,歸根結底就是數字化,數字化建立在採樣定理之上,即在一定條件下,用離散的序列可以完全代表一個連續函數。採樣定理讓現實世界中連續變化的聲音、圖像等模擬信息在計算機中用0和1表示成為可能。因此,模數轉換(ADC)成了在電子工程師當中普遍知曉的一個概念,數字化成了大眾普遍接受的一個名詞。

圖書、報紙、雜誌的數字化是互聯網出現以來一項重大的突破,亞馬遜公司正是看出其中的商機逐漸成長為全球最大的互聯網電商。數字化讓知識、想法的分享與傳播變得前所未有的容易,同時,音頻和視頻的數字化也改變了媒體傳輸的方式,如數碼相機、數字電視、數字廣播、數字電影等的出現。現實世界開始被大規模地數字化,數字化體現了一種全新的社會生存狀態,不斷衝擊著傳統行業。

雖然目前數字化的知識、信息比人類誕生以來積累得還要多,可是數字化內容僅僅在於分享和閱讀?數字化信息能否轉化為一種生產力?很多人、很多公司發現數字化產生的資料庫將會成為一個巨大的寶藏,隨之出現的數據化是數字化發展的必然過程,人類當然不滿足於分享和學習,從數字化的內容里挖掘更具價值的東西成了新的方向。

數據可能成為未來互聯網最核心的部分,單方面來看,大部分的數據都是沒有用的,可是從數據化的信息中提取有價值的東西顯得更加難能可貴,在數據化時代,如何利用數據並讓『數據說話』是核心的問題,只有這樣才能讓數據創造價值。

數據化包括數據的採集和數據的處理。數據採集主要是硬體來做的事情,處理器,存儲器,感測器的組合竭盡所能地採集需要的數據:手機的GPS感測器不斷地定位我們的位置信息,對人和移動裝置比如汽車的行為進行採集;重力感測器不僅僅對數字設備的橫屏豎屏進行控制,而且能根據重心的位移來記步;手環的血氧感測器採集血氧信息,對健康數據進行監控並預防等。說到底物聯網的本質就是在數字化的基礎上把現實數據化。

數據的處理就是軟體的演算法及實現,包括各種軟體程序,管理數據的文件系統和資料庫系統,以及各種數據處理方法也就是演算法,具體包括存貯、加工、分類、歸併、計算、排序、轉換、檢索等,為了保證安全可靠,還有一整套數據安全保密技術。

數據化讓人與自然、人與人之間更加貼近,研究認為,未來公司的價值將不是人才,而是在於數據,將來人不會變得越來越無可替代,反而數據的收集與積累更能增加公司的價值,雖然人才與技術是公司不可或缺的,但是這只是工具,就好比是犁,那數據就是土壤,犁只能在土壤上耕耘。很多評估公司開始將公司大量的數據信息作為和硬體、軟體、知識產權同等地位,納入公司市值的估算之內,說明人們越來越重視數據的價值。

美劇《紙牌屋》成功的原因之一就是Netflix第一次在將大數據的分析納入了影視製作中,嚴格來說,《紙牌屋》是從3000萬付費用戶的數據中分析出收視習慣,並對用戶喜好進行分析而創作的,其處理的資料庫中包含了3000萬用戶的收視選擇、400萬評論、300萬次主題搜索,最終拍什麼?誰來拍?誰來演?怎麼播,都是由所有的用戶數據里分析得來,也是第一次由數據引導、決定的影視創作案例。

亞馬遜對數據的使用又是另外一個成功的例子,網站會根據用戶的購買記錄和瀏覽產品信息的歷史來判斷用戶的喜好,從而給用戶推薦需要的產品。

誰在進行數據化?很多公司,包括蘋果、谷歌、亞馬遜、微軟等都是不斷採集用戶的數據,並利用這些數據來預判未來可能出現的各種情況,這些公司的效益都體現在數據上而不是固有的資產。事實上,政府才是數據化的採集者和掌握者,比方說政府掌握著每個居民的身份信息,城市停車場的車位信息等,在中國,一些地方性的政府開始公開一些數據,方便人們閱讀和使用,2014年5月,上海市政府召開推進政府數據資源向社會開放會議,開始有序推進各個政府職能部門向社會開放政府數據資源,這一舉動將數據從政府手中解放出來,公眾可以通過政府數據服務網進行瀏覽、查詢、檢索和下載等服務。可以說,在數據化時代,政府顯示出了開明的一面。

我們正處在數據主宰一切的時代,地鐵、超市、車站、工廠等場所充斥的攝影頭是對人類行為數據進行採集,每天我們在網路上的行為痕迹都會被記錄下來作為數據來分析和還原,這是機遇也是挑戰,雖然從數字化到數據化是一個必然的過程,現實世界的數據化不斷挑戰傳統行業,可是其中也存在著風險,我們每天接收到的垃圾郵件和簡訊,當我們的隱私被泄露的時候就說明數據化其實是一把雙刃劍,數據化帶來的風險將是人類不得不面對的問題。

推薦閱讀:

HDFS-文件讀寫流程
關於Alternative Data的一些想法(2)
今日數據行業日報(2017.6.19)
從數據採集中獲益的8大產業
我們每天面對的屏幕正悄悄改變世界

TAG:大數據 | 數據分析 | 大數據分析 |