帶你深入淺出學習大數據:價值鏈之數據生成
來自專欄 Herbert看科技
今天繼續帶大家學習大數據。今天主要介紹大數據價值鏈的數據生成部分。希望大家持續學習,每天關注,我會連續更新文章,讓大家系統學習和認識大數據。
階段I:數據生成
本次主要分享大數據源的兩個方面:大數據源的歷史趨勢和三種典型的數據源。
一、數據源
大數據生成的發展趨勢可由數據產生速率來描述。隨著技術的發展,數據產生速率也不斷增長。事實上,IBM認為現在世界上90%的數據是近兩年產生的。數據爆炸的原因被廣為爭論。Cisco認為數據的增長來自於視頻、互聯網和攝像頭。由於數據實際上是能被計算機可讀的信息抽象,信息通信技術(ICT)是使得信息可讀並且產生或捕獲數據的主要驅動力。因此本節首先從ICT技術的發展開始,以歷史的觀點解釋數據爆炸的發展趨勢。
數據生成的模式可分為3個順序的階段:
?階段1:始於20世紀90年代。隨著數字技術和資料庫系統的廣泛使用,許多企業組織的管理系統存儲了大量的數據,如銀行交易事務、購物中心記錄和政府部門歸檔等。這些數據集是結構化的,並能通過基於資料庫的存儲管理系統進行分析。
?階段2:則始於web系統的日益流行。以搜索引擎和電子商務為代表的web1。0系統在20世紀90年代末期產生了大量的半結構化和無結構的數據,包括網頁數據和事務日誌等。而自2000年初期以來,許多web2.0應用從在線社交網路(如論壇、博客、社交網站和社交媒體網站等)中產生了大量的用戶創造內容。
?階段3:因移動設備(如智能手機、平板電腦、感測器和基於感測器的互聯網設備)的普及而引發。在不久的將來,以移動為中心的網路將產生高度移動、位置感知、以個人為中心和上下文相關的數據。
可以發現,數據生成模式是從階段1的被動記錄到階段2的數據主動生成,再到階段3的自動生成。除了用數據產生速率描述,大數據源還與數據產生領域相關。
這裡主要對商業、網路和科學研究這三個領域進行大數據相關技術的調研。首先,大數據和商業活動聯繫緊密,許多大數據工具已經被開發並廣泛使用;其次,大部分的數據是由互聯網、移動網路和物聯網產生的。再次,科學研究會產生大量的數據,高效的數據分析將幫助科學家們發現基本原理,促進科學發展。這三個領域在對大數據的處理方面具有不同的技術需求。
(1)商業數據
過去幾十年中,信息技術和數字數據的使用對商業領域的繁榮發展起到了重要的推動作用。全球所有公司商業數據量每1。2年會翻番。互聯網上的商業事務,包括B2B和B2C事務,每天有4500億條。日益增長的商業數據需要使用高效的實時分析工具挖掘其價值。例如,Amazon每天要處理幾百萬的後端操作和來自第三方銷售超過50萬的查詢請求。沃爾瑪每小時要處理上百萬的客戶事務,這些事務被導入資料庫,約有超過2.5PB的數據量。Akamai每天則需分析7500萬事件,以更好地實現廣告定位。
(2)網路數據
網路(互聯網、移動網路和物聯網)已經和人們的生活緊密聯繫在一起。網路應用如搜索、社交網路服務SNS、網站和點擊流是典型的大數據源。這些數據源高速產生數據,需要先進的處理技術。例如,搜索引擎Google在2008年每天要處理20PB的數據;社交網路應用Facebook則每天需存儲、訪問和分析超過30PB的用戶創造數據;Twitter每月會處理超過3200億的搜索。在移動網路領域,2010年有40億人持有手機,其中約12%的手機是智能手機。而在物聯網領域,有超過3000萬的聯網感測器工作在運輸、汽車、工業、公用事業和零售部門併產生數據。這些感測器每年仍將以超過30%的速率增長。
(3)科學研究數據
越來越多的科學應用正產生海量的數據集,若干學科的發展極度依賴於對這些海量數據的分析,這些學科主要包括:
光學觀測和監控。在光學遙感和對地觀測領域、基於光學等設備的視頻監控領域等,往往需要獲取連續大量的數據。這些幾乎造成管理和處理災難的數據有一定的周期性,而用戶關心的又往往是其中的差異和異常的部分。考慮到這類數據的分析和學習過程往往又同獲取這些數據時的裝置和參數密切相關,再加上視覺信息對人類的重要性以及用戶同系統的必要交互,對光學觀測和監控數據的管理和處理已經提高到重要日程。
計算生物學。美國國家生物信息中心NCBI維護了GenBank的核苷酸序列資料庫,該資料庫大小每10個月翻倍。2009年8月,資料庫中存儲了來自15萬多有機生物體的超過2500億條核苷酸鹼基。
天文學。從1998年到2008年,最大的天文目錄SDSS從天文望遠鏡中獲取了25Terabytes數據。隨著天文望遠鏡解析度的提高,每晚產生的數據量將在2014年超過20Terabytes。
高能物理。歐洲粒子物理實驗室中大型強子對撞機實驗,在2008年初起以2PB/s的速率產生數據,每年將存儲約10PB經過處理的數據。
這些領域不但要產生海量的數據,還需要分布在世界各地的科學家們協作分析數據。由表可以看出,大部分的數據源產生PB級別的無結構數據,並且需要得到快速準確的分析。
二、數據屬性
普適感知和計算產生前所未有的複雜的異構數據,這些數據集在規模、時間維度、數據類型的多樣性等方面有著不同的特性。例如,移動數據和位置、運動、距離、通信、多媒體和聲音環境等相關。NIST提出了大數據的5種屬性。
?容量:數據集的大小。
?速度:數據生成速率和實時需求。
?多樣性:結構化、半結構化和無結構的數據形式。
?水平擴展性:合併多數據集的能力。
?相關限制:包含特定的數據形式和查詢。數據的特定形式包括時間數據和空間數據;查詢則可以是遞歸或其他方式。
通常,科學研究領域的數據源在5種屬性中具有最小的屬性值;商業領域的數據源則具有較高的水平擴展性和相關限制的需求;而網路領域的數據源具有較高的容量、速度和多樣性特徵。
今天介紹了大數據價值鏈的數據生成部分,後面會繼續帶你認識不一樣的大數據。
如果您想長期獲取科技信息的解讀,記得關注我,我會每天更新,謝謝。同時如果您有什麼意見和建議,歡迎評論。
推薦閱讀:
※數據分析基礎—2.2.5 SWOT分析法
※企名片-5.29至6.2日國內外融資事件清單(155筆)
※機器學習入門資源大全
※從數據分析結果到決策
※用數據挖一挖豆瓣5.3的《長城》,水軍力量到底有多強大