大數據講座一:大數據中的數據流向
文章簡述了數據的產生、處理以及價值,作為前嗅大數據培訓講座,此次相關知識點對於大數據愛好者來說是一次不容錯過的饕餮盛宴!
在信息技術迅猛發展的當下,大數據的應用已滲透進人們生活中各個領域,每個人直接或間接的都在接觸著大數據,可見大數據技術領域的重要性。
大數據領域對於身處於IT行業的工作者來說,既好奇又神秘,在虛心學習的同時,小編將前嗅內部員工培訓的知識點詳細的記錄了下來,今天與大家分享一下此次前嗅培訓的知識點~~~
(1)數據產生
①web服務協議。web(World Wide Web)即全球廣域網,也稱為萬維網,它是一種基於超文本和HTTP的、全球性的、動態交互的、跨平台的分散式圖形信息系統。
web服務是建立在Internet上的一種網路服務,為瀏覽者在Internet上查找和瀏覽信息提供了圖形化的、易於訪問的直觀界面,其中的文檔及超級鏈接將Internet上的信息節點組織成一個互為關聯的網狀結構。
其中此協議包括HTTP-GET、HTTP-POST、SOAP。
每個協議都由一系列 HTTP 請求頭組成,這些請求頭與一些其他信息一起定義客戶端向伺服器請求的內容,而在成功時,伺服器將用一系列 HTTP 響應頭和所請求的數據響應。
②感測器數據。例如攝像頭數據,像超市,政府,企業的話都會安放攝像頭,像這些攝像頭存儲下來的數據就是感測器數據。
③數據源介質包括條形碼,二維碼,射頻碼。
④系統數據包括日誌數據、監控數據。爬蟲軟體採集數據時,日誌記錄了採集過程的歷史情況,用於管理採集的日誌。
(2)數據處理
①存儲。數據存儲對象包括數據流在加工過程中產生的臨時文件、加工過程中需要查找的信息。
②清洗。是將數據中的垃圾數據清洗掉,從而提高數據的質量。
像ForeSpider這款爬蟲軟體是通過一個採集模板,採集搜索引擎,挖掘全網特徵信息,數據的採集-挖掘-排重-清洗-權重分析-採集入庫,同步完成,清洗的作用是:去除重複數據及垃圾數據。
③挖掘。數據挖掘一般是指從大量的數據中通過演算法,搜索出隱藏於其中信息的過程。通過爬蟲軟體採集數據時,如果根據文本中的關鍵詞來判斷該數據是否需要,這就屬於數據挖掘。
④模擬/學習。模擬數據是由感測器採集得到的連續變化的值,例如溫度、壓力,以及目前在電話、無線電和電視廣播中的聲音和圖像。
(3)數據的價值
①圖表。將龐大的數據採集出來以圖表的形式直觀的展示出來,ForeSpider導出的數據文件是csv文件,可以用excel打開,也可以採集圖片、文件、視頻、報表等非結構化數據。
②預測包括模型和指導意義。
其中模型包括確定性模型和概率模型。確定性模型就相當於概率事件中的必然事件,概率模型相當於概率事件。
指導意義相當於數據的應用,例如自動駕駛,大數據應用領域極廣,像小編在前嗅工作的這段時間裡,接觸到了各種採集數據的客戶,有需要淘寶電商的數據,或者政府投標的相關信息,再或者新聞網站的數據等。
總之,大數據領域既神秘又吸引人,作為公司內部福利,小編也會定期跟大家分享成果滴~~~讓我們一起跟隨前嗅的小夥伴開啟大數據領域的冒險之旅吧!
http://weixin.qq.com/r/XEwDG3vEqSbWrT949xlO (二維碼自動識別)
前嗅大數據——深度大數據專家
前嗅(http://www.forenose.com)是首個深度大數據專家。
提供數據採集-分析-處理-管理-營銷-應用,
自主知識產權的全套大數據產品。
推薦閱讀:
※打造你的機器學習團隊:三種模式和角色分工
※Python 數據分析(四):數據的處理
※決策樹實戰:Titanic 生還預測
※用【指數加權平均】構造時間序列問題的特徵
※明略數據的2018「行星計劃」是啥?