大數據講座一：大數據中的數據流向

05-14

文章簡述了數據的產生、處理以及價值，作為前嗅大數據培訓講座，此次相關知識點對於大數據愛好者來說是一次不容錯過的饕餮盛宴！

在信息技術迅猛發展的當下,大數據的應用已滲透進人們生活中各個領域，每個人直接或間接的都在接觸著大數據，可見大數據技術領域的重要性。

大數據領域對於身處於IT行業的工作者來說，既好奇又神秘，在虛心學習的同時，小編將前嗅內部員工培訓的知識點詳細的記錄了下來，今天與大家分享一下此次前嗅培訓的知識點~~~

（1）數據產生

①web服務協議。web（World Wide Web）即全球廣域網，也稱為萬維網，它是一種基於超文本和HTTP的、全球性的、動態交互的、跨平台的分散式圖形信息系統。

web服務是建立在Internet上的一種網路服務，為瀏覽者在Internet上查找和瀏覽信息提供了圖形化的、易於訪問的直觀界面，其中的文檔及超級鏈接將Internet上的信息節點組織成一個互為關聯的網狀結構。

其中此協議包括HTTP-GET、HTTP-POST、SOAP。

每個協議都由一系列 HTTP 請求頭組成，這些請求頭與一些其他信息一起定義客戶端向伺服器請求的內容，而在成功時，伺服器將用一系列 HTTP 響應頭和所請求的數據響應。

②感測器數據。例如攝像頭數據，像超市，政府，企業的話都會安放攝像頭，像這些攝像頭存儲下來的數據就是感測器數據。

③數據源介質包括條形碼，二維碼，射頻碼。

④系統數據包括日誌數據、監控數據。爬蟲軟體採集數據時，日誌記錄了採集過程的歷史情況，用於管理採集的日誌。

（2）數據處理

①存儲。數據存儲對象包括數據流在加工過程中產生的臨時文件、加工過程中需要查找的信息。

②清洗。是將數據中的垃圾數據清洗掉，從而提高數據的質量。

像ForeSpider這款爬蟲軟體是通過一個採集模板，採集搜索引擎，挖掘全網特徵信息，數據的採集-挖掘-排重-清洗-權重分析-採集入庫，同步完成，清洗的作用是：去除重複數據及垃圾數據。

③挖掘。數據挖掘一般是指從大量的數據中通過演算法，搜索出隱藏於其中信息的過程。通過爬蟲軟體採集數據時，如果根據文本中的關鍵詞來判斷該數據是否需要，這就屬於數據挖掘。

④模擬/學習。模擬數據是由感測器採集得到的連續變化的值，例如溫度、壓力，以及目前在電話、無線電和電視廣播中的聲音和圖像。

（3）數據的價值

①圖表。將龐大的數據採集出來以圖表的形式直觀的展示出來，ForeSpider導出的數據文件是csv文件，可以用excel打開，也可以採集圖片、文件、視頻、報表等非結構化數據。

②預測包括模型和指導意義。

其中模型包括確定性模型和概率模型。確定性模型就相當於概率事件中的必然事件，概率模型相當於概率事件。

指導意義相當於數據的應用，例如自動駕駛，大數據應用領域極廣，像小編在前嗅工作的這段時間裡，接觸到了各種採集數據的客戶，有需要淘寶電商的數據，或者政府投標的相關信息，再或者新聞網站的數據等。

總之，大數據領域既神秘又吸引人，作為公司內部福利，小編也會定期跟大家分享成果滴~~~讓我們一起跟隨前嗅的小夥伴開啟大數據領域的冒險之旅吧！

http://weixin.qq.com/r/XEwDG3vEqSbWrT949xlO (二維碼自動識別)

前嗅大數據——深度大數據專家

前嗅（http://www.forenose.com）是首個深度大數據專家。

提供數據採集-分析-處理-管理-營銷-應用，

自主知識產權的全套大數據產品。