標籤:

大數據時代下,數據感知在數據質量管理系統中的應用

關於數據質量管理,可能與大部分人沒有太大的關係。雖然,市面上有很多的公司在進行數據的挖掘、分析方面業務的工作,但是關於數據質量管理,方面的公司真的是屈指可數。

由於本人所在的公司主要是為了解決發改委遇到的一些問題,而開展的1個項目。比如檢驗地市註冊資金是否存在異常這麼1個簡單的例子。

而對於數據感知技術,大部分沒有了解過。為了說明,大數據時代下,數據感知在數據質量管理系統中的應用,這裡我們需要先解決幾個問題:

什麼是數據質量管理系統? 什麼是數據感知技術? 數據感知技術的用途?

下面我們分別來進行介紹。

什麼是數據質量管理系統

我們知道,數據是企業數據中心的重要資產,獲取並維護高質量的數據,對業務及運營至關重要。而數據量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進行數據挖掘和數據分析。

但是在這個過程中,有許多因素會導致這些數據資產貶值,比如數據的冗餘和重複會導致信息的不可識別、不可信及精確度不夠等情況的發生。

而數據質量管理系統就是對數據進行處理後能夠提供高質量的數據,最終的目的是挖掘數據價值,推動業務發展,實現盈利。

而數據質量管理系統主要由如下一些部分組成:

數據清洗與去重 數據可視化 數據評估 數據治理 數據挖掘 數據分析

而當前系統主要採用純Python來實現。對於發改委動不動就千萬級別的數據還是可以很好的進行駕馭的。

什麼是數據感知技術

對於感知的定義是客觀事件通過感覺器官在人腦中的直接反映。而所謂數據感知,就是通過對數據的一些特徵信息來對數據進行描述。比如,我們看到遠處有1個人,長頭髮穿著紅色衣服高跟鞋,那麼我們就可以推測那個人是女的。當然,這個過程也可能會出現不準確的問題,比如那個人是個男的,就這樣打扮。

而數據感知技術可以實現給我們1組樣本數據,我們可以知道它是哪種類型。比如,給我們如下的100條記錄1組數據:

13923123425 020-8876234 (0760)2347234 ... 3423456

通過我們的感知技術我們可以識別它為手機號碼和電話號碼,其中手機佔據的比例假設為60.82%,而電話號碼佔據的比例為32.22%,而剩下還有6.96%的數據無法被識別出來,因此我們可以推斷當前數據為聯繫方式為主。

需要注意的是,這100條記錄需要滿足隨機性,不然感知出來的結果可能會差強人意。

當然,這是比較簡單的1個例子。當然我們還可以識別中文姓名、地址信息、企業名稱、工商註冊範圍、工商註冊資金等類型,這裡就涉及到概率論及統計學的一些內容了。

當然,還會涉及到一些線性代數的內容,比如貝葉斯網路轉移矩陣的使用,會用到矩陣的相關知識。

數據感知技術的用途

一般情況下,數據質量管理系統都是基於規則庫進行開展工作的,而對每組數據進行規則的配置是1個繁瑣且耗時的工作,基本上沒有人願意進行這種工作。

而此時,通過數據感知技術,我們可以自動的感知規則,並為每組數據推薦最適合的規則,從而簡化人員的工作量,提高效率。

另外通過數據感知技術,還可以找到資料庫其他類似的類型的數據,進行數據關聯性的關聯,彌補一些認知上的缺陷。

總結

實際上,數據感知只是數據質量管理中的1個很小的環節,通過這種自動化的技術,可以節省人工的成本及提高效率。

Bingdata優網助幫匯聚多平台採集的海量數據,通過大數據技術的分析及預測能力為企業提供智能化的數據分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

北京優網助幫信息技術有限公司(簡稱優網助幫)是以大數據為基礎,並智能應用於整合營銷的大數據公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有互聯網與通信運營商兩種基因,為大數據的演算法分析提供強大的技術支撐。


推薦閱讀:

2017 大數據學習計劃:完成比完美重要
又到求職黃金季,這些技能助你一臂之力【阿里直聘優先錄取】
2016年寵物行業最新發展現狀大數據【圖】
數據嗨客 | 深度學習第3期:自編碼器
Tesseract-OCR 字元識別---樣本訓練

TAG:大數據 |