大數據講座一:大數據中的數據流向

文章簡述了數據的產生、處理以及價值,作為前嗅大數據培訓講座,此次相關知識點對於大數據愛好者來說是一次不容錯過的饕餮盛宴!

在信息技術迅猛發展的當下,大數據的應用已滲透進人們生活中各個領域,每個人直接或間接的都在接觸著大數據,可見大數據技術領域的重要性。

大數據領域對於身處於IT行業的工作者來說,既好奇又神秘,在虛心學習的同時,小編將前嗅內部員工培訓的知識點詳細的記錄了下來,今天與大家分享一下此次前嗅培訓的知識點~~~

(1)數據產生

①web服務協議。web(World Wide Web)即全球廣域網,也稱為萬維網,它是一種基於超文本和HTTP的、全球性的、動態交互的、跨平台的分散式圖形信息系統。

web服務是建立在Internet上的一種網路服務,為瀏覽者在Internet上查找和瀏覽信息提供了圖形化的、易於訪問的直觀界面,其中的文檔及超級鏈接將Internet上的信息節點組織成一個互為關聯的網狀結構。

其中此協議包括HTTP-GET、HTTP-POST、SOAP。

每個協議都由一系列 HTTP 請求頭組成,這些請求頭與一些其他信息一起定義客戶端向伺服器請求的內容,而在成功時,伺服器將用一系列 HTTP 響應頭和所請求的數據響應。

②感測器數據。例如攝像頭數據,像超市,政府,企業的話都會安放攝像頭,像這些攝像頭存儲下來的數據就是感測器數據。

③數據源介質包括條形碼,二維碼,射頻碼。

④系統數據包括日誌數據、監控數據。爬蟲軟體採集數據時,日誌記錄了採集過程的歷史情況,用於管理採集的日誌。

(2)數據處理

①存儲。數據存儲對象包括數據流在加工過程中產生的臨時文件、加工過程中需要查找的信息。

②清洗。是將數據中的垃圾數據清洗掉,從而提高數據的質量。

像ForeSpider這款爬蟲軟體是通過一個採集模板,採集搜索引擎,挖掘全網特徵信息,數據的採集-挖掘-排重-清洗-權重分析-採集入庫,同步完成,清洗的作用是:去除重複數據及垃圾數據。

③挖掘。數據挖掘一般是指從大量的數據中通過演算法,搜索出隱藏於其中信息的過程。通過爬蟲軟體採集數據時,如果根據文本中的關鍵詞來判斷該數據是否需要,這就屬於數據挖掘。

④模擬/學習。模擬數據是由感測器採集得到的連續變化的值,例如溫度、壓力,以及目前在電話、無線電和電視廣播中的聲音和圖像。

(3)數據的價值

①圖表。將龐大的數據採集出來以圖表的形式直觀的展示出來,ForeSpider導出的數據文件是csv文件,可以用excel打開,也可以採集圖片、文件、視頻、報表等非結構化數據。

②預測包括模型和指導意義。

其中模型包括確定性模型和概率模型。確定性模型就相當於概率事件中的必然事件,概率模型相當於概率事件。

指導意義相當於數據的應用,例如自動駕駛,大數據應用領域極廣,像小編在前嗅工作的這段時間裡,接觸到了各種採集數據的客戶,有需要淘寶電商的數據,或者政府投標的相關信息,再或者新聞網站的數據等。

總之,大數據領域既神秘又吸引人,作為公司內部福利,小編也會定期跟大家分享成果滴~~~讓我們一起跟隨前嗅的小夥伴開啟大數據領域的冒險之旅吧!

weixin.qq.com/r/XEwDG3v (二維碼自動識別)

前嗅大數據——深度大數據專家

前嗅(forenose.com)是首個深度大數據專家。

提供數據採集-分析-處理-管理-營銷-應用,

自主知識產權的全套大數據產品。


推薦閱讀:

打造你的機器學習團隊:三種模式和角色分工
Python 數據分析(四):數據的處理
決策樹實戰:Titanic 生還預測
用【指數加權平均】構造時間序列問題的特徵
明略數據的2018「行星計劃」是啥?

TAG:大數據分析 | 數據挖掘 | 大數據 |