淺談大數據
來自專欄 成長UP
大數據,大價值
2010年,中國的移動互聯網的迎來了新的一波浪潮,這次浪潮勢頭來的更快更猛更令市場瘋狂。移動互聯網的應用也隨著智能手機的擴張快速填補上來,一時激起千層浪,互聯網呈現出欣欣向榮的局面。比如騰訊推出一款集娛樂、社交、即時通訊的類融合通信模式的應用—微信,以其產品的創新功能、用戶化的設計,成功在市場中打開一扇門,快速積攢起大量移動用戶。阿里沿襲多年的2c業務模式,將支付寶植入移動手機,並以移動支付掀起互聯網金融大潮,螞蟻金服、餘額寶等功能相繼上線…….這些互聯網巨頭超前的眼光得益於多年的產品和用戶積累。應用是什麼?功能,好玩、好聽、好用;用戶是什麼?流量,用戶的關注、興趣點、偏好傾向、市場盈利點。兩者是交互的過程,用戶多少直接反應產品能否存活,產品體驗直接影響到用戶的挽留能力。怎樣才能在用戶和產品之間找出最優解,既能準確把握用戶需求,又能保持產品的設計理念、路標規劃不變形。解決之道就在於「數據」。
數據,在現今所處時代扮演著越來越重要的地位。解密出數據的價值,將能挖掘出巨大的潛力。正因為這樣,越來越多的研究聚集於數據挖掘、數據分析、機器學習、聚類分析等。
萬物互聯的網路社會就是大數據時代。大數據帶給人們更多的是數據思維。什麼是大數據?很多人都認為是大規模體量化的數據,但是這並不準確。IDC(International Data Corporation)給出的定義是:大數據技術是新一代的技術,它被設計用於在成本可承受的條件下,通過快速(velocity)的採集、發現和分析,從大體量(volumes)、多類別(variety)的數據中提取價值。其典型的特徵被歸納為4V:1) 海量化(volumes) 2)多樣性(variety)、 3)快速化(velocity),(有的稱作流轉速度快) 4)價值化(value)。通過這4個特徵描繪出一種大數據概念。
但是,這樣就完了嗎?不,上面講到數據思維也是大數據衍生範疇,具體來講,大數據時代是思維的變革,奧地利學者舍恩伯格在其《大數據時代》中給我們數據思維的啟發。1)更多,大數據不再是簡單的統計樣本進行分析處理,這裡的樣本已衍變成全體數據模式,即「樣本 == 全體」的思維。 2) 更雜,大數據時代準確的說是混雜的數據時代。在以前技術相對不成熟的時代,強調的是精確性,追求的是數據結果的準確性。但是到了大數據時代,數據種類更加多樣繁雜,其中只有5%的數據是結構化的數據,95%的數據(圖片、文本、視頻等)都是非結構化的。要想利用這些95%的數據價值,就必須接受數據是混雜的事實,而且數據越多越有利於最終的預測結果。3)更好,大數據時代看重的不是傳統的因果關係,二是相互關係,即找出事物之間的關聯性,讓數據自身「說話」,告訴我們其中的關聯和聯繫,進行更有價值的預測。
在對大數據有了基本的概念後,我們再來談談怎麼應用大數據去挖掘其中的價值。數據應用,古已有之,美利堅自建國之初就將數據分析應用於治國中,體現的是一種先進的科學管理的方法。在眾議院和參議院人數設置,國家立法,甚至是著名的南北戰爭中都有著數據支撐的影子(具體可查閱塗子培的相關著作)。中國對數據的重視程度在近幾年尤為明顯,國家從政策層面相繼出台了扶持推動大數據技術發展和產業應用的文件,支持力度也逐漸加大。比較有名的就是貴州省「雲上貴州」平台,最近蘋果公司已經將其iCloud中國用戶的服務交給該平台運營。
數據的潛在價值發掘可以從這些方面展開:1)數據的再利用,如電信運營商利用通信網路中的信息發掘其內在的價值;2)重組數據,通過數據集的重組、關聯獲取發現價值;3)可擴展數據,收集儘可能多的數據並在一開始時就考慮到各種潛在的二次用途並使用其具有可擴展性可增加數據的潛在價值。4)數據廢氣,用戶在線交互的副產品,包括瀏覽了哪些頁面,停留了多久、滑鼠游標停留的位置、輸入了什麼信息等。
從技術角度來講,大數據的處理分析(數據治理)通常需要經過「數據採集—存儲(共享)計算—應用呈現」這幾層。數據範圍很廣,採集的數據源視上層應用而定。比如電信行業為了獲取通信網路中的數據以更好的服務用戶和支撐經營,它們會採集各種無線接入數據和核心網中的信令監測數據。商業諮詢公司為提高分析能力,它們會從網站上「爬蟲」各類相關數據。金融服務行業通過刷卡、地理位置等獲取用戶消費習慣,以進行個性化的精準營銷和理財推送服務,等等。數據的存儲,主要依據數據格式而定,結構化數據對於海量數據的查詢、統計、更新等操作效率低;非結構化數據,圖片、視頻、word、pdf、ppt等文件存儲,不利於檢索,存儲和查詢;半結構化數據:轉換為結構化數據或者按照非結構化存儲。大數據的分析技術主要有:數據處理—自然語言處理技術;統計和分析—地域佔比,文本情感分析,TopN排行榜等;數據挖掘—建模、聚類、分類、排名;模型預測—預測模型、機器學習等。經過數據的分析計算後再將數據可視化處理即可得到更為直觀、清晰的數據價值應用。
目前大數據技術主要應用的是Apache Hadoop項目及其子項目。Hadoop的名稱由來比較有創意,來源於項目創建者Doug Cutting的兒子給大象命的名字,因此Hadoop的整個生態系統組件大都以動物命名。Hadoop包括Map-Reduce計算模型、HDFS分散式文件系統,以及配套的一些支撐組件,如HBase、Hive、 Pig,還有一些實時計算分析的Spark和Storm等。Hadoop的高可用性、批處理和伸縮性提供了一個很好的平台能力。
數據價值除了在挖掘自身能力外,還有一點需要提一下,就是數據開放共享。數據的開放共享對於推動數據的再利用,構建整體的數據分析能力尤為重要。但是目前出於商業考慮或是其他因素,能力開放還處於很低的水平。開放的大數據,才能有開放的大未來。
推薦閱讀:
※移動互聯網時代如何實現營銷的價值?
※用戶體驗詞條-22.線框圖(Wireframe)
※泊柏科技關於網路課堂的預想
※阿里安全潘多拉實驗室龍磊:越獄 iOS 11.2,選了一條最難走的路
※之樂日記:真正的聰明人,為什麼從不去社交?