大數據時代的重大變革

大數據時代的重大變革

大數據時代的到來正在改變人們的生活方式、思維模式和研究範式,我們可以總結出10個重大變革。

決策方式:目標驅動型 —> 數據驅動

傳統科學思維中,決策制定往往是「目標」或「模型」驅動的——根據目標(或模型)進行決策。然而,大數據時代出現了另一種思維模式,即數據驅動型決策,數據成為決策制定的主要「觸發條件」和「重要依據」。例如,近年來,很多高新企業中的部門和崗位設置不再是「固化的」,而是根據所做項目與所處的數據環境,隨時動態調整其部門和崗位設置。然而,部門和崗位設置的敏捷性往往是基於數據驅動的,根據數據分析的結果靈活調整企業內部結構。

方法論:基於知識的方法 —> 基於數據的方法

我們傳統的方法論往往是「基於知識」的,即從 「大量實踐(數據)」中總結和提煉出一般性知識(定理、模式、模型、函數等)之後,用知識去解決(或解釋)問題。因此,傳統的問題解決思路是「問題→知識→問題」,即根據問題找「知識」,並用「知識」解決「問題」。然而,數據科學中興起了另一種方法論——「問題→數據→問題」,即根據問題找「數據」,並直接用數據(不需要把「數據」轉換成「知識」的前提下)解決問題。

計算智能:複雜演算法 —> 簡單演算法

「只要擁有足夠多的數據,我們可以變得更聰明」是大數據時代的一個新認識。因此,在大數據時代,原本複雜的「智能問題」變成簡單的「數據問題」——只要對大數據進行簡單查詢就可以達到「基於複雜演算法的智能計算的效果」。為此,很多學者曾討論過一個重要話題——「大數據時代需要的是更多數據還是更好的模型(moredata or better model)?」。機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種「演算法」,但應用效果並不理想。近年來,Google翻譯等工具改變了「實現策略」,不再僅靠複雜演算法進行翻譯,而對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。

數據管理:業務數據化 —> 數據業務化

在大數據時代,企業需要重視一個新的課題——數據業務化,即如何「基於數據」動態地定義、優化和重組業務及其流程,進而提升業務的敏捷性,降低風險和成本。但是,在傳統數據管理中我們更加關注的是業務的數據化問題,即如何將業務活動以數據方式記錄下來,以便進行業務審計、分析與挖掘。可見,業務數據化是前提,而數據業務化是目標。

研究範式:第三範式 —> 第四範式

2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四範式——數據密集型科學發現(Data-intensive Scientific Discovery)。在他看來,人類科學研究活動已經歷過三種不同範式的演變過程(原始社會的「實驗科學範式」、以模型和歸納為特徵的「理論科學範式」和以模擬模擬為特徵的「計算科學範式」),目前正在從「計算科學範式」轉向「數據密集型科學發現範式」。第四範式,即「數據密集型科學發現範式」的主要特點是科學研究人員只需要從大數據中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數據時代,天文學家的研究方式發生了新的變化——其主要研究任務變為從海量資料庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。

數據的屬性:數據是資源 —> 數據是資產

在大數據時代,數據不僅是一種「資源」,而更是一種重要的「資產」。因此,數據科學應把數據當做「一種資產來管理」,而不能僅僅當做「資源」來對待。也就是說,與其他類型的資產一樣,數據也具有財務價值,且需要作為獨立實體進行組織與管理。

數據分析:統計學 —> 數據科學

在傳統科學中,數據分析主要以數學和統計學為直接理論工具。但是,雲計算等計算模式的出現以及大數據時代的到來,提升了我們對數據的獲取、存儲、計算與管理能力,進而對統計學理論與方法產生了深遠影響,主要有:

● 隨著數據獲取、存儲與計算能力的提升,我們可以很容易獲得統計學中所指的「總體」中的全部數據,且可以在總體上直接進行計算——不再需要進行「抽樣操作」;

● 在海量、動態、異構數據環境中,人們更加關注的是數據計算的「效率」而不再盲目追求其「精準度」。例如,在數據科學中,廣泛應用「基於數據的」思維模式,重視對「相關性」的分析,而不是等到發現「真正的因果關係」之後才解決問題。在大數據時代,人們開始重視相關分析,而不僅僅是因果分析。

產業競合關係:以戰略為中心 —> 以數據為中心

在大數據時代,企業之間的競合關係發生了變化,原本相互激烈競爭,甚至不願合作的企業,不得不開始合作,形成新的業態和產業鏈。例如,近年來IBM公司和Apple公司「化敵為友」,並有報道稱他們正在從競爭對手轉向合作夥伴——IBM的100多名員工前往Apple的加州庫比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯合開發iPhone和iPad應用。

數據複雜性:不接受 —> 接受

在傳統科學看來,數據需要徹底「清洗」和「集成」,計算目的是需要找出「精確答案」,而其背後的哲學是「不接受數據的複雜性」。然而,大數據中更加強調的是數據的動態性、異構性和跨域等複雜性——彈性計算、魯棒性、虛擬化和快速響應,開始把「複雜性」當作數據的一個固有特徵來對待,組織數據生態系統的管理目標轉向將組織處於混沌邊緣狀態。

數據處理模式:小眾參與 —> 大規模協同

傳統科學中,數據的分析和挖掘都是具有很高專業素養的「企業核心員工」的事情,企業管理的重要目的是如何激勵和績效考核這些「核心員工」。但是,在大數據時代,基於「核心員工」的創新工作成本和風險越來越大,而基於「專家余(Pro-Am)」的大規模協作日益受到重視,正成為解決數據規模與形式化之間矛盾的重要手段。

---來源於網路


推薦閱讀:

1. 什麼是數據分析
數據分析學習大神HADLEY WICKHAM關於「dplyr」的文章翻譯
Apache Kylin查詢性能優化
周志華西瓜書習題2.5詳細解答
學習Python,你需要掌握這些最少必要知識

TAG:大數據分析 | 大數據時代 |