什麼是數據挖掘？

12-30

本題已加入圓桌 ? 數據挖掘應用，更多「數據挖掘」相關的話題歡迎關注討

這是個有意思的問題。

由於數據科學剛剛興起，數據科學家作為一種新生職業被提出，數據研究高級科學家Rachel Schutt將其定義為「計算機科學家、軟體工程師和統計學家的混合體「。數據挖掘作為一個學術領域，橫跨多個學科，涵蓋了統計學、數學、機器學習和資料庫等，此外還包括各類專業方向比如從油田電力、海洋生物、歷史文本、電子通訊、法律稅務等的各個專業領域。注意每一分類都需要相當的行業經驗。

而要明白某一事物的本質，就需要通過另一些近似的事物特性對比來說明。就好像你單獨提問什麼是男人？很難解釋對不對。

所以咱們來舉個栗子簡單看看：

一、分析報告

在《大鬧天宮》里孫悟空跟二郎神在花果山下大戰三百回合，咱來寫一篇文章分析。

孫悟空有金剛不壞火眼金睛筋斗雲七十二般變化加上定海神針身法靈活。
二郎神楊戩有三隻眼縛妖索哮天犬銀袍金甲加上三尖兩刃四竅八環刀力量無窮。
所以在大戰開始三百回合時候不相上下，結果後來二郎神派出天兵天將放火燒花果山讓大聖慌了心神被偷襲得手。
最後二郎神贏了。
分析報告完成。

二、統計分析

大聖二戰楊戩。這次在二位大戰之前做個數理統計來預測結果。

首先根據歷史樣本史書記載發現兩人在之前的五百年里打過100次，其中孫悟空贏60次。
然後有記錄顯示，之前孫悟空和牛魔王戰鬥的勝率是80%，而楊戩鬥牛魔王勝率是70%。
所以可以得出綜合預測總體勝率是孫悟空贏面大。
結論依靠歷史記錄，使用樣本預測總體，根據經驗做出假設。
統計分析完成。

三、數據挖掘

孫悟空和楊戩終極決戰。這次咱們根據兩位的詳細資料（如家庭出身、教育背景、工作經驗、婚育情況等）讓計算機做協同過濾關聯分析。計算機通過數據清洗建模後發現：

貧苦出身的孩子一般比皇親國戚更能吃苦所以功夫底子更好平時訓練更加紮實。
戰鬥經驗豐富的斗戰勝佛因為平時經常打架擅長利用天時地利環境因素而勝算更大。
在都得到大師指點的情況下，貧苦出身的孩子可以利用後天的努力來彌補先天悟性的欠缺。
樣貌奇特註定孤獨終老的神仙總是會比同等條件下美若天仙喜歡拈花惹草處處留情的神仙功夫好。

綜上所述，我們可知道：

論出身兩位大神不分伯仲。一個從石頭出來，一個是凡人與神仙結合所生。
悟空的師父菩提老祖（准提道人）和二郎神的師父玉鼎真人的師父元始天尊同為鴻鈞老祖的高足所以前者更勝一籌。
斗戰勝佛戰鬥經驗相對整日快活逍遙無憂無慮的二郎神來說更加豐富。
另孫行者由於樣貌原因始終單身（好傷感）。
所以可以得出結論，這次大戰孫悟空贏面大。
數據挖掘完成。

四、最後總結：

分析報告一般是整個事件發生結束以後的總結（描述性）。
統計分析能利用大量的歷史樣本來預測整個事件總體未來的走向（預測性概率）。
數據挖掘則透過事件的表象發現隱藏在背後的蛛絲馬跡，從而找到潛伏的規律以及看似無關事物之間背後的聯繫，用此來洞察未來（規範性）。

以上，祝挖掘快樂：）

歡迎關注我存儲知識的地方：預見未來——Han Hsiao的知乎專欄Foresee

1什麼是數據挖掘/分析

簡單地說就是，在大型資料庫中，自動發現有用信息的過程，加以分析。其中資料庫中的知識發現是重要的環節，也就是人們說的KDD，knowledge discovery in database。

2KDD是什麼

其實就是一個數據處理的過程，從輸入數據開始，進行預處理工作，包括特徵選擇，維歸約規範化和選擇數據子集等等，隨後進行分析和挖掘，再經過處理，例如模式過濾，可視化，模式表示等，最後形成可用信息的過程。

3數據挖掘要解決什麼問題

具體的講主要是以下幾個，首先是數據的可伸縮性，提高或改變數據的可伸縮度。其次是解決數據高維性的問題。處理異種數據和複雜數據。解決數據所有權與分布問題。對非傳統的分析進行合理處理。

4數據挖掘的任務

其實主要包括四個大塊，可以獨立運行，也可以聯合操作，分別是聚類分析，預測建模，關聯分析，異常檢測。

聚類分析實用的技術包括K均值，凝聚層次聚類，dbscan，簇評估等，主要目的是通過基於原型，密度，圖等的聚類，發現其間的關係。

預測建模則更多的是一種可視化角度分析方法，利用分類，回歸等方法，來建立模型解決問題。

關聯分析顧名思義，更多強調數據中的特徵強關聯，例如說過一萬次的啤酒與尿布等。

異常檢驗則主要是識別不同於其他數據的具有顯著特徵值的數據。

5基礎知識有什麼

想學習數據挖掘，幾個基礎知識是必備。首先是線性代數，包括向量，矩陣等。否則你根本不會是用科學工具。其次是維歸約，包括PCA，SVD等技術的使用。還有概率統計，回歸方程，優化，也是必備知識。暫時寫這麼多，有時間再多說些。

1948年遼瀋戰役的時候，林彪每天深夜都要求彙報每日軍情，其實都是重複著一堆枯燥無味的數據：每支部隊殲敵多少、俘虜多少、繳獲的火炮、車輛多少、槍支、物資多少，還要統計出機槍、長槍、短槍，擊毀和繳獲尚能使用的汽車，也要分出大小和類別。

這種工作很繁瑣，很累人，看不出有任何價值。然而，1948年10月份，林彪發現繳獲的長短槍比例、大小車比例、軍官與士兵的比例略微有些異常，從這些微妙的數字變化中他判斷出國軍司令廖耀湘的指揮所就在附近。