標籤:

一款基於探碼Web數據清洗系統的研發與介紹

目前信息技術不斷發展,資料庫技術日益成熟,Big Data技術不斷崛起,很多企業數據飛速增長,除去數據本身的信息,數據之間還蘊藏著大量的對企業管理、企業發展、企業的利益有決策性的作用。同時,隨著Web的迅速普及,網站的數量越來越多,也越來越多的企業和個人都習慣在網站上發布信息,查找信息,獲取信息。

問題就來了,一個網站不可能彙集到企業所需的所有的信息,就要從多個網站採集挖掘所需信息。由於各個專業素養不一致,網站濫用縮寫詞,慣用語,數據輸入錯誤,重複記錄,丟失值,拼寫變化,不同的計量單位等等一系列問題導致產生了不完整的數據、錯誤的數據和重複的數據,這三大類數據又稱為臟數據。所以企業在得到最有用的數據之前,需要對臟數據進行清洗,消除這三大類的臟數據,提高數據的可用性,保證數據的質量,實現數據的高效查詢與利用。

探碼基於Web中採集到的數據,檢測並消除數據源中存在的屬性錯誤和重複與相似的記錄問題,研發出一種通用的數據清洗系統,從而保證數據的可信度和可用性。

關於探碼Web數據清洗系統,根據項目實施經驗,總結出來的具體實施流程。

應用領域

關於Web數據清洗,主要時為了提高數據的可用性與可信度。目前數據清洗主要應用於這幾個領域:數據倉庫、數據挖掘、數據質量管理。

首先,數據倉庫是為了支持決策分析的數據集合,數據挖掘是建立在數據倉庫基礎上的增值技術。數據清洗對於數據倉庫應用和數據挖掘應用來說,是獲取可靠、有效數據的一個基本步驟,是基礎中的基礎。

其次,數據質量管理是貫穿數據生命周期的全過程,覆蓋質量評估,數據去噪,數據監控,數據探查,數據清洗,數據診斷等方面。數據質量管理必須做到數據的完整性、唯一性、一致性、準確性和合法性,做到這些,就需要數據質量處理數據標準化、匹配、生存和質量監測。

最後,數據必須具備適當的質量,以解決業務要求問題。

技術

  • 硬體部分:

採用雲主機提供商Ucloud的雲主機或者阿里雲,保證7*24小時運行。

  • 軟體部分:

探碼主要是採用的技術前沿先進的技術框架,實現Web前端展示,展示處爬蟲程序抓取的數據,利於清洗。

功能

數據清洗系統主要由兩部分組成:

  • 手工清洗:通過Web前端展示出抓取到的數據,對數據進行直觀分析,得出哪些條件的數據需要刪除,哪些條件的數據需要修改。
  • 自動清洗:經過手工清洗之後,可能會得出一些清洗模式,這種模式適用於所有數據。我們把這種模式記錄在程序里,將來的數據只要匹配這種模式,數據將來會被自動清洗,不再需要人工清洗。

界面展示

  • 能夠通過Web前端,展示出所有採集到的數據;
  • 能通過標題關鍵字,內容關鍵字篩選內容;
  • 能夠後台修改、刪除內容;
  • 添加清洗規則,輸入標題關鍵字,內容關鍵字,測試新採集的數據將被自動清洗。

文章轉載自探碼科技官網:tanmer.com/web-bigdata/


推薦閱讀:

有哪些看起來很高端的技術其實原理很暴力很初級?
奇虎360行了哪些善?
黑洞裡面有化學反應發生么?
手裡面有三萬塊,打算做投資,投資什麼好呢?
機器人音樂家 Shimon 能出創作音樂了,未來會不會出專輯?

TAG:Web開發 | 科技 |