大數據時代下的數據挖掘簡析
數據挖掘技術概要
從海量的資料庫中選擇、探索、識別出有效的、新穎的、具有潛在效用的乃至最終可理解的模式以獲取商業利益的非平凡的過程就是Fayyad和Piatetsky-Shapiror在1996年提出的數據挖掘的定義。這個定義有三個要點:處理海量的數據;揭示企業運作中的內在規律;為企業運作提供直接決策分析,並帶來巨大經濟效益。
技術不斷演進,社會不斷發展,對於數據挖掘的定義也發生了一些變化。例如對於數據量級的變化,從海量已經到了巨量。在1996年的時候,人們是無法想像2017年我們將會處理如此巨大的數據。而數據處理的樣本規模也在從採樣發展到全量,例如極光大數據在處理關鍵人的同軌分析特徵識別的時候,會處理幾百億的位置信息軌跡,從中提煉出具有相同軌跡的設備信息,從而通過設備信息關聯出自然人的相互關係等等。
同時,相對於1996年,數據應用發掘企業的內在規律已經拓展到了社會運行特徵、人群行為特徵、經濟發展特徵等等各個方面。而數據挖掘的目的也不僅是為了經濟效益,也對社會生產力提升和管理水平提升提供了相應支持。
數據挖掘過程的關鍵點
傳統數據挖掘過程一般採用如下過程:
數據挖掘的過程
在大數據時代,數據挖掘的過程本質相同,但是有如下差異:
大數據時代數據挖掘的差異
1. 從結構化數據到非結構化數據。傳統的數據挖掘都是依據資料庫裡面的數據進行分析,在大數據時代,數據來源多種多樣,對於這些非結構化數據的加工是大數據數據挖掘的重要特徵。因為非結構化數據處理的成功與否決定了大數據數據源的質量好壞,而這並不是演算法可以解決的。
2. 從抽樣數據到全量數據。傳統數據挖掘受制於數據處理能力,只能使用少量的抽樣數據進行分析。在大數據技術環境下,完全可以實現全量數據的分析,效率甚至可能高於抽樣數據的分析。
3. 從因果關係到相關性分析。大數據分析通過事件和多種因素進行相關性分析,通過數據挖掘和機器學習的演算法找到其關聯關係,並運用回歸分析從而實現預測。
數據挖掘的任務按照目標可以分為4類:
1) 分類:通過分析訓練集的數據,為每一個分類建立分類分析模型,用這個已知的規律對其他數據進行分類
2) 回歸:建立因變數和自變數之間關係的模型
3) 聚類:將對象集合分成由類似的對象組成的多個類的過程
4) 關聯規則:尋找給定數據集合中各個因子之間的關聯關係
人們經常見到的「邏輯回歸模型」、「神經網路模型」、「遺傳演算法」、「決策樹」等等都是監督學習過程的挖掘演算法。這類演算法在機器學習和深度學習裡面大量使用,是大數據公司必備的專業技能。極光大數據作為國內領先的移動大數據服務商,在這方面的實際案例頗多,例如極光大數據團隊利用神經網路演算法預測個人前往某一個特定區域的概率和時間,準確度可以達到80%以上;他們還利用神經網路演算法和隨機森林演算法對個人喜歡的移動應用進行推薦下載和推薦產品;此外,極光大數據團隊還自主開發了空間軌跡相似度STS(spatial trajectory similarity)演算法進行同軌分析等。
數據挖掘技術隨著大數據時代的到來已變幻出更強的功能特徵,而在大數據服務商的精耕細作下,也必將為各行業帶來進步的動力。
推薦閱讀:
※【挪威,有生之年】雪國列車,北極光與鯨
※龍的真容-19:帝王冠冕上的「小帘子」到底是什麼?
※想去俄羅斯看極光,求去過的大神給指點?
※00 極光行前須知
※紅與黑才叫時尚!這樣的極光,你見過嗎?