大數據可能「說謊」 非結構化數據將呈現更豐富的世界
分享一篇Ftrans飛馳傳輸CEO @SakyaZhu 撰寫的關於非結構化數據的文章。
在2017年的下半年談論大數據似乎已經沒有什麼新意,甚至有些令人生厭了,畢竟這個詞在中國已經流行太久,形形色色的產品、平台和公司早已貼滿了大數據標籤,而真正有價值的創新永遠都是少數。
行業對於大數據的認知開始變得更加理性和客觀,這是一種成熟的表現。但如果因此就認為大數據時代已經進入風平浪靜的「發展期」,那麼我們很可能會錯過一場更加波瀾壯闊的變革。
被忽視的非結構化數據
在過去幾年,大數據產業更多關注的是如何處理海量、多源和異構的數據,並從中獲得價值,而其中絕大多數都是結構化數據。不可否認,這些數據的體量足夠巨大,然而我們今天必須承認這些只是冰山一角——行業公認的數據是,結構化數據僅佔到全部數據量的20%,其餘80%都是以文件形式存在的非結構化和半結構化數據,包括各種辦公文檔、圖片、視頻、音頻、設計文檔、日誌文件、機器數據等,這些數據如同「暗網」一般地沉默著。可以想像,如果我們只閱讀了一本書的五分之一,又如何正確理解這本書的含義呢?
非結構化數據占數據總量的80%以上
事實上,過去大家並非有意忽視非結構化數據,而是受到一些條件的制約和影響,不得不策略性地「放棄」這部分數據:
1、存儲資源受限,大量數據被拋棄
非結構化數據體量巨大並且產生速度非常快,需要佔用大量的存儲資源,而存儲成本降低也只是最近幾年的事情,大量數據還沒有加以分析和利用就被早早拋棄,以便為新產生的數據騰出空間;
2、數據體量大,獲取和流轉困難
對於已經保留下來的非結構化數據,真要去使用和處理它,依然是一項不討好的「體力活兒」。由於體量、距離和網速的原因,非結構化數據並不容易獲得,更不要說被靈活地放入業務分析和處理流程之中了;
3、缺乏處理分析的技術手段
非結構化數據的價值密度相對較低,缺乏有效的技術對非結構化數據進行處理和分析,面對海量文件數據束手無策。相比之下,結構化數據更容易入手,優先處理結構化數據也是非常合情合理的。
結構化數據的局限性
然而在對結構化數據進行分析和挖掘的過程中,我們越來越多地發現一些新的問題,甚至已經造成很大困擾:
1、結構化數據可能在「說謊」
結構化數據的優點在於便於統計和處理,包括結構化數據的形成本身就可能來自於統計。而統計並不能代表全部信息,必然存在一定程度的損耗,並帶來誤導。這也是為什麼有些時候明明看似得出了合理的結論,卻不能有效改進我們的業務。
相比之下,非結構化數據則「誠實」得多,通常包含了完整而連續的信息,其中充滿了大量微小但卻非常關鍵的細節,而這些數據將成為我們信息來源的重要組成部分,甚至會起到決定性的作用。
2、僅有結構化數據的世界簡直太乏味了
人類先天是感性的生物,我們都喜歡豐富多彩的世界,它應該是立體而全方位的,包含了多種感官的信息和刺激,而不僅僅是枯燥的數字。很多時候我們發現,無論是從受眾的接受程度還是所傳遞的信息量來看,即便是再酷炫的統計圖表,也抵不過一分鐘生動的視頻。這一點從各大企業官方網站的變化中,就能明顯地感受到。
另外,值得注意的是,人類對於結構化數據的運用由來已久。比如在企業級市場,包括ERP、CRM、MRP等管理軟體一向都屬於這一範疇,而所謂的大數據應用只是一個更高級的階段而已。因此,從實際的技術發展和應用水平的角度來看,結構化數據市場是相當成熟的,也會愈發平穩。比如賽迪在今年5月發布的一份報告就顯示,以ERP和CRM為代表的結構化數據市場增速放緩,相比之下非結構化數據市場的代表ECM(企業內容管理)則表現出強勁的增長動力。我想這也在一定程度上反映了市場的看法和整體的趨勢。
2011-2016年CRM軟體、ERP軟體和ECM軟體市場規模增速對比
未來世界將是非結構化的
世界隨時都在發生變化,時至今日,對非結構化數據的管理和應用走到了一個重要關口。
一方面得益於存儲成本的下降。隨著存儲技術和公有雲平台的不斷發展和成熟,用戶可以擁有充足並且彈性可擴展的存儲資源,用於存放更大量的非結構化數據,從而使得非結構化數據的積累和應用成為可能。
Hype Cycle for StorageTechnologies,2016,Gartner
另一方面,新興技術的快速發展也提高了行業對非結構化數據的重視程度。比如物聯網、工業4.0、視頻直播等領域的發展產生了更多的非結構化數據,而人工智慧、機器學習、語義分析、圖像識別等技術方向則需要大量的非結構化數據來開展工作,包括資料庫系統也在不斷向非結構化延伸。一推一拉之間,都要求我們以新的視角和方法去面對非結構化數據。
因此,未來對大數據的分析和應用將從結構化數據向非結構化數據轉移,無論是消費級市場還是企業級市場,都會試圖生產和採集更多的非結構化數據,並從中發掘商業價值。誰能夠最先積累更多的數據,誰能夠最先從中學到知識,誰就會領先一步,率先佔領未知的空間。
非結構化數據帶來的新機會
作為大數據產業的重要組成部分,甚至應該是產業的主體,非結構化數據一旦受到重視,註定將帶來前所未有的發展機遇,吹響大數據時代下半場比賽的哨音。
在結構化數據為主導的階段,大量的企業通過圍繞結構化數據提供產品和服務,最終成長為行業巨頭,並建立了穩固的競爭壁壘。而新興的非結構化數據市場將給更多企業,尤其是創新型企業,帶來百年一遇的彎道超車的機會。想一想特斯拉的電動汽車,你一定會理解我說的意思。
同時,由於非結構化數據的自身特徵與結構化數據有著本質的差異,導致這場變革將是全鏈條的——從數據的生產、存儲、流轉、加工、處理,到最終的分析、應用和輸出,無不和傳統模式有著天壤之別。而在其中任何一個環節,都可能出現顛覆性的技術和模式,甚至形成獨立的規模化賽道。因此,這一過程中所產生的機會和市場空間將是巨大的,我們甚至已經能夠預見到一個百花齊放的新時代。
可以想像,當我們對非結構化數據有了足夠的控制力,並能夠充分利用的時候,我們得到的將是一個更加完整和富有生命力的世界。這個世界,事實上已經並不遙遠。
作者:朱旭光 Ftrans飛馳傳輸CEO
來源:數據觀
推薦閱讀:
※擁抱20餘家主機廠,彩虹無線提供車聯網全產業鏈服務
※4· 數據時代|用數據說話!年輕人對視頻網站到底意味著什麼?
※阿里巴巴大數據之路-數據模型篇
※Facebook信息泄露事件影響重大引發大思考
※大數據「殺熟」,懂你才能更狠的「宰」你,蘋果用戶扎心了。