標籤:

什麼是數據挖掘?

本題已加入圓桌 ? 數據挖掘應用,更多「數據挖掘」相關的話題歡迎關注討


這是個有意思的問題。

由於數據科學剛剛興起,數據科學家作為一種新生職業被提出,數據研究高級科學家Rachel Schutt將其定義為「計算機科學家、軟體工程師和統計學家的混合體「。數據挖掘作為一個學術領域,橫跨多個學科,涵蓋了統計學、數學、機器學習和資料庫等,此外還包括各類專業方向比如從油田電力、海洋生物、歷史文本、電子通訊、法律稅務等的各個專業領域。注意每一分類都需要相當的行業經驗。

而要明白某一事物的本質,就需要通過另一些近似的事物特性對比來說明。就好像你單獨提問什麼是男人?很難解釋對不對。

所以咱們來舉個栗子簡單看看:

一、分析報告

在《大鬧天宮》里孫悟空跟二郎神在花果山下大戰三百回合,咱來寫一篇文章分析。

  • 孫悟空有金剛不壞火眼金睛筋斗雲七十二般變化加上定海神針身法靈活。
  • 二郎神楊戩有三隻眼縛妖索哮天犬銀袍金甲加上三尖兩刃四竅八環刀力量無窮。
  • 所以在大戰開始三百回合時候不相上下,結果後來二郎神派出天兵天將放火燒花果山讓大聖慌了心神被偷襲得手。
  • 最後二郎神贏了。
  • 分析報告完成。

二、統計分析

大聖二戰楊戩。這次在二位大戰之前做個數理統計來預測結果。

  • 首先根據歷史樣本史書記載發現兩人在之前的五百年里打過100次,其中孫悟空贏60次。
  • 然後有記錄顯示,之前孫悟空和牛魔王戰鬥的勝率是80%,而楊戩鬥牛魔王勝率是70%。
  • 所以可以得出綜合預測總體勝率是孫悟空贏面大。
  • 結論依靠歷史記錄,使用樣本預測總體,根據經驗做出假設。
  • 統計分析完成。

三、數據挖掘

孫悟空和楊戩終極決戰。這次咱們根據兩位的詳細資料(如家庭出身、教育背景、工作經驗、婚育情況等)讓計算機做協同過濾關聯分析。計算機通過數據清洗建模後發現:

  • 貧苦出身的孩子一般比皇親國戚更能吃苦所以功夫底子更好平時訓練更加紮實。
  • 戰鬥經驗豐富的斗戰勝佛因為平時經常打架擅長利用天時地利環境因素而勝算更大。
  • 在都得到大師指點的情況下,貧苦出身的孩子可以利用後天的努力來彌補先天悟性的欠缺。
  • 樣貌奇特註定孤獨終老的神仙總是會比同等條件下美若天仙喜歡拈花惹草處處留情的神仙功夫好。

綜上所述,我們可知道:

  • 論出身兩位大神不分伯仲。一個從石頭出來,一個是凡人與神仙結合所生。

  • 悟空的師父菩提老祖(准提道人)和二郎神的師父玉鼎真人的師父元始天尊同為鴻鈞老祖的高足所以前者更勝一籌。

  • 斗戰勝佛戰鬥經驗相對整日快活逍遙無憂無慮的二郎神來說更加豐富。

  • 另孫行者由於樣貌原因始終單身(好傷感)。

  • 所以可以得出結論,這次大戰孫悟空贏面大。
  • 數據挖掘完成。

四、最後總結:

  • 分析報告一般是整個事件發生結束以後的總結(描述性)。

  • 統計分析能利用大量的歷史樣本來預測整個事件總體未來的走向(預測性概率)。

  • 數據挖掘則透過事件的表象發現隱藏在背後的蛛絲馬跡,從而找到潛伏的規律以及看似無關事物之間背後的聯繫,用此來洞察未來(規範性)。

以上,祝挖掘快樂:)

歡迎關注我存儲知識的地方:預見未來——Han Hsiao的知乎專欄Foresee


1什麼是數據挖掘/分析

簡單地說就是,在大型資料庫中,自動發現有用信息的過程,加以分析。其中資料庫中的知識發現是重要的環節,也就是人們說的KDD,knowledge discovery in database。

2KDD是什麼

其實就是一個數據處理的過程,從輸入數據開始,進行預處理工作,包括特徵選擇,維歸約規範化和選擇數據子集等等,隨後進行分析和挖掘,再經過處理,例如模式過濾,可視化,模式表示等,最後形成可用信息的過程。

3數據挖掘要解決什麼問題

具體的講主要是以下幾個,首先是數據的可伸縮性,提高或改變數據的可伸縮度。其次是解決數據高維性的問題。處理異種數據和複雜數據。解決數據所有權與分布問題。對非傳統的分析進行合理處理。

4數據挖掘的任務

其實主要包括四個大塊,可以獨立運行,也可以聯合操作,分別是聚類分析,預測建模,關聯分析,異常檢測。

聚類分析實用的技術包括K均值,凝聚層次聚類,dbscan,簇評估等,主要目的是通過基於原型,密度,圖等的聚類,發現其間的關係。

預測建模則更多的是一種可視化角度分析方法,利用分類,回歸等方法,來建立模型解決問題。

關聯分析顧名思義,更多強調數據中的特徵強關聯,例如說過一萬次的啤酒與尿布等。

異常檢驗則主要是識別不同於其他數據的具有顯著特徵值的數據。

5基礎知識有什麼

想學習數據挖掘,幾個基礎知識是必備。首先是線性代數,包括向量,矩陣等。否則你根本不會是用科學工具。其次是維歸約,包括PCA,SVD等技術的使用。還有概率統計,回歸方程,優化,也是必備知識。暫時寫這麼多,有時間再多說些。


1948年遼瀋戰役的時候,林彪每天深夜都要求彙報每日軍情,其實都是重複著一堆枯燥無味的數據:每支部隊殲敵多少、俘虜多少、繳獲的火炮、車輛多少、槍支、物資多少,還要統計出機槍、長槍、短槍,擊毀和繳獲尚能使用的汽車,也要分出大小和類別。

這種工作很繁瑣,很累人,看不出有任何價值。然而,1948年10月份,林彪發現繳獲的長短槍比例、大小車比例、軍官與士兵的比例略微有些異常,從這些微妙的數字變化中他判斷出國軍司令廖耀湘的指揮所就在附近。

這就是數據挖掘。


轉自@張磊IDMer http://idmer.blog.sohu.com/93323063.html

2、什麼是數據挖掘?

關於什麼是數據挖掘,很多學者和專家給出了不同的定義,以下我們列出幾種常見的說法:

「簡單地說,數據挖掘是從大量數據中提取或『挖掘』知識。該術語實際上有點用詞不當。數據挖掘應當更正確地命名為『從數據中挖掘知識』,不幸的是它有點長。許多人把數據挖掘視為另一個常用的術語『資料庫中知識發現』或KDD的同義詞。而另一些人只是把數據挖掘視為資料庫中知識發現過程的一個基本步驟。」 ——《數據挖掘:概念與技術》(J. Han and M. Kamber)

「數據挖掘就是對觀測到的數據集(經常是很龐大的)進行分析,目的是發現未知的關係和以數據擁有者可以理解並對其有價值的新穎方式來總結數據。」——《數據挖掘原理》(David Hand, et al)

「運用基於計算機的方法,包括新技術,從而在數據中獲得有用知識的整個過程,就叫做數據挖掘。」——《數據挖掘--概念、模型、方法和演算法》(Mehmed Kantardzic)

「數據挖掘,簡單地說,就是從一個資料庫中自動地發現相關模式。」——《構建面向CRM的數據挖掘應用》(Alex Berson, et al)

「數據挖掘(DM)是從大型資料庫中將隱藏的預測信息抽取出來的過程。」——《數據挖掘:機遇與挑戰》(John Wang)

而作為數據挖掘領域的華人第一人,韓家煒教授在《數據挖掘:概念與技術》的教學幻燈片中,給出一個更清晰的定義:「數據挖掘,就是從大型資料庫中抽取有意義的(非平凡的,隱含的,以前未知的並且是有潛在價值的)信息或模式的過程。」

這裡我們可以看到數據挖掘具有以下幾個特點:

l 基於大量數據:並非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的演算法都可以在小數據量上運行並得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。

l 非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的「經過我的計算,我發現了一個有趣的現象,到本場比賽結束為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!」那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。

l 隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。

l 新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。

l 價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器。

「數據挖掘」這個術語是在什麼時候被大家普遍接受的,已經難以考證,大約在上世紀90年代開始興起。其中還有一段趣話。在科研界,最初一直沿用「資料庫中的知識發現」(即KDD,Knowledge Discovery in Database)。在第一屆KDD國際會議中,委員會曾經展開討論,是繼續沿用KDD,還是改名為Data Mining(數據挖掘)?最後大家決定投票表決,採納票數多的一方的選擇。投票結果頗有戲劇性,一共14名委員,其中7位投票贊成KDD,另7位贊成Data Mining。最後一位元老提出「數據挖掘這個術語過於含糊,做科研應該要有知識」,於是在科研界便繼續沿用KDD這個術語。而在商用領域,因為「資料庫中的知識發現」顯得過於冗長,就普遍採用了更加通俗簡單的術語——「數據挖掘」。

嚴格地說,數據挖掘並不是一個全新的領域,它頗有點「新瓶裝舊酒」的意味。組成數據挖掘的三大支柱包括統計學、機器學習和資料庫等領域內的研究成果,其它還包含了可視化、信息科學等內容。數據挖掘納入了統計學中的回歸分析、判別分析、聚類分析以及置信區間等技術,機器學習中的決策樹、神經網路等技術,資料庫中的關聯分析、序列分析等技術。


通常我們把信息轉化為價值,要經歷信息、數據、知識、價值四個層面,數據挖掘就是中間的重要環節,是從數據中發現知識的過程。

舉個例子來說明。(例子僅供解釋,不包含其他意思,Σ( ° △ °|||)︴)

傍晚你一個人從火車站出來,看到路邊有一個漂亮妹子,這個妹子朝你拋了一個媚眼,這個媚眼它也是信息,雖然它很難定量化分析,也不是個記錄。但你成功的接收到了這個信息,你認為是女個女孩對你有感覺。

那你就被這個信息所影響,於是你很激動,決定要上前去搭訕。(這個地方,媚眼這個信息能夠被發送、傳播和接收,並且影響你的行為,但還談不上數據。)

去搭訕的時候,你問:美女,在等人嗎?

然後美女對你說:老闆,包夜800……

於是這裡面就有定量化分析的內容了,雖然它只是一個很小的數據片段,單獨看起來沒有辦法分析出任何深刻的結果。但如果你在一個本子上把它記錄下來。比如你記錄的是:

2017年10月15日,漢東省金舟市火車站包夜800

如果你的本子上有幾千條這樣的記錄,這就是數據。通過簡單的查詢和比較,你就可以從這些數據中獲得知識。

如果你把這些數據輸入電腦,繪製一幅金舟市的價格地圖,你發現同等水平的妹子在金舟市汽車客運中心價格,只有火車站的70%左右,那繪製這個地圖,做這個價格的統計分析,就是數據挖掘做的事情談,它能夠指導你去做一些事情。

當然用這個知識能不能產生價值,產生多大的價值,就要看如何應用了。比如是否能夠根據這些價格來指導酒店的選址,這個能不能作為附近消費水平分析依據,這就是價值和應用層面的問題。

你看,數據挖掘其實就是我們從數據中發現知識的過程。

當然我們發現知識其實可以不走數據挖掘的道路,比如我們常常講第一性原理:從公理體系和基本參數出發,通過演繹的方法得到知識。比如通過幾何的公理推出了歐幾里得的公理體系,推出大量的幾何定義;我們通過薛定諤方程以及一些基本的物理參數,可以得到很多對於原子分子的認識。

而數據挖掘就不是這樣,數據挖掘是直接從數據中獲得知識。比如,我們看一個人跑步,我們可以通過不同體型的人多次跑一百米所需要的時間,得到一些經驗的公式。比如說身高每高一厘米,跑一百米的時間相應縮短0.015秒(這是隨便說的,不要當真)。這樣的公式是沒有辦法從牛頓定律中推出來的,但是我們可以從數據挖掘中得到。

就第一性原理和數據挖掘而言,數據挖掘的可信度是不如第一性原理的,因為有很多關聯都是假相關,但是它能夠處理很複雜的系統。而這往往是我們從量子力學、經典力學等已知的公理中不能夠得到的。因為它太複雜,必須要從實驗的測量中得到。

但這兩者是可以相互補余的。首先,有了第一性原理的認知,他就能夠提前去幫助我們提前去感覺到哪些數據可能對我們的結論最有用。比如我們看跑步,通過認知我們知道腿的長度,對跑步的速度可能是有幫助的,而腋毛的長度對跑步的速度應該是沒有什麼幫助的。

所以我們拿得到一個人的身體和跑步運動員跑步速度的關係,很多研究都在探索運動員的身高、腿長和跑步速度的關係,但是沒什麼人研究腋毛長度和跑步速度的關係。如果我們什麼知識都沒有的話,為什麼不去研究腋毛呢?那我們就應該把腋毛和身高、腿長看成同樣重要。

我們有了這些數據挖掘的工具,其實是可以反向去推導一些基本的定律。

利用數據挖掘,我們還可以做非常多的事情。

1.發現數據項之間的相關性

比如我們拿到各個城市環境、人口、交通等數據,就可以通過相關性分析來看人均汽車保有量,和空氣質量各個指標之間的關係,從而定量化地幫助制定產業經濟和環保政策。比如要不要進行更嚴厲的限購,要不要收取為其的排放稅等等。

2.把數據對象進行聚類

比如我們知道大量的人在電子商務網路消費數據,我么就可以根據消費的特徵把他們聚成很多類,每一類人我們制定不同的營銷手段,從而能夠取得銷售量的提升。比如電信運營商對人群進行聚類,然後針對性地推出電話套餐。

3.把數據對象進行分類

當我們已經有了分類之後,來了一些新的數據之後,我們可以把他分到不同不同的類去。比如醫療影像上查看肺部的病灶,可能是肺結核、可能是早起肺癌,中晚期肺癌,可能是肺上的癤結,可能是癒合的病灶等等,來了一張新的片子,我們可以通過圖像處理,就把它分到不同的類別(當然這需要我們提前對很多片子的數據進行學習)。

4.預測缺失數據或者未來的數據

很多數據集中,比如生物數據,我們已知的知識全部數據集中的一小部分,這需要我們做一些事情去預測這些數據。還有一些,想大選、股票價格預測、河流徑流量預測、城市用電量預測等,這些就是對未來數據的預測。


簡而言之就是沙裡淘金


數據挖掘是知識的發現,可以更好的揭示大數據隱藏的秘密,是數據驅動的

數據分析是知識驅動的,在一定的知識背景下,達到某種確定的分析目標

@范陽昕 不研究計量經濟學的數據挖掘工程師不是一個好工程師


數據挖掘技術的應用體現在1)分類與回歸 2)聚類 3)關聯規則 4)時序模式 5)偏差檢測

參考:http://blog.csdn.net/u012507022/article/details/51067762


下面的文章,從數據挖掘演算法工程師的能力素質要求,具體做哪些工作,了解什麼是數據挖掘。

本人從事數據演算法相關行業10來年,經歷過各種崗位的磨練與挑戰,薪資這幾個階段都經歷過,現在每天也在幫助企業招聘大數據人才,對初中級、中高級、專家科學家級有一些見解,下面我就從幾個角度解構下這幾類人的能力素質模型,這些也是我在日常招聘過程中對人才的基本要求,說得不對的地方歡迎大家拍磚:

技術能力:

初中級別的演算法工程師,0年-3年,年薪12萬-40萬,需要在無導師指導情況下,獨立完成一個演算法模型,演算法種類有很多,你只需要熟悉某一類演算法模型,比如預測評分模型、分類模型、關聯推薦模型、文本分析等,僅僅只需要懂一類,程度上能獨立工作就好,哪怕做出的模型還不夠老練。

中高級級別的演算法工程師,3年-5年,年薪30萬-60萬,需要掌握起碼三類以上的演算法模型,熟悉每一類演算法模型中有哪些典型的演算法,並且對各典型演算法適用的場景瞭然於胸,舉個例子,做分類的演算法有決策樹、邏輯回歸、SVM模型等,需要知道怎樣的數據形態適用哪種演算法,每種演算法的優缺點在哪裡,適用於什麼業務場景,如何進行模型的演進與優化。同時,要掌握模型實施的整個環節,從樣本定義、特徵值分析、演算法選型、模型評估、模型部署、模型監控等。

專家科學家級別的演算法工程師,5年-10年以上,年薪50萬-200萬,需要完全具備中高級別的演算法能力外,這個級別的工程師是公司中的靈魂人物,需要不僅僅掌握模型演算法的能力,也需要熟悉相關周邊技術,比如大數據生態圈相關的技術,還要求具備公司在技術領域戰略方向的確定選擇和實施落地步驟的把控,比如,在金融信貸風控領域,需要做出授信額度模型、風險定價模型、反欺詐識別模型、客戶需求意向度模型等等,需要這位帶頭大哥非常清晰各個模型的內在聯繫,落地步驟怎樣哪些該優先去做哪些往後,哪些做哪些不做,等等。

業務能力:

初中級別的演算法工程師,對業務經驗沒有太多要求,更多要求是技術上的能力,但如果懂業務,具備公司所在的行業業務經驗,則加分也非常明顯,如果是多個人同時競爭一個崗位,那麼,原來是這一行業的最容易勝出。

中高級別的演算法工程師,需要具備至少1年以上的同行業的業務經驗,技術是會有瓶頸的,到了這個級別的工程師,一定要注意選定行業作為自己的職業,跳槽要慎重選擇,不能頻繁換行業,需要積累行業業務經驗,這是重中之重。

專家科學家級別的演算法工程師,他是公司的專家、科學家,要做技術專家的同時,也要是一個業務專家。所有的技術最終是為業務服務的,只懂技術、只會搭積木是遠遠不夠的。技術如果沒帶來收益,所有的投入都是沒有產出的。作為公司的靈魂人物,所有技術戰略方向、業務戰略方向都與你有關,你為公司的營收業績負責,不會因為你只是負責管理技術而對業務營收沒有要求。

團隊管理:

初中級別的演算法工程師,要求不高,在團隊成員中能夠進行良好的溝通,到達一定技術水平時候,可以幫忙帶領實習生工作。這個級別人員,我個人要求具備一個分享精神,分享才能讓自己技術學習更快更牢固,分享幫助自己的同時更重要的是幫助自己。團隊的學習氛圍怎樣,就是看這個級別的員工,團隊成員有進步,團隊才會更加牢固。

中高級別的演算法工程師,leader級別,需要具備一定的管理能力,跨團隊溝通協同能力,項目驅動能力。作為骨幹人員,需要帶領好自己的團隊成員,對團隊的高效產出負責。要會培養成員,能夠做他們的導師。

專家科學家級別的演算法工程師,管理上,應該都是部門經理、總監以上的了,管理能力的要求比較高,要能夠確定業務方向、公司戰略方向等,決策失誤,會浪費大量的資源,甚至會給公司帶來災難性後果。舉個例子,重大演算法模型的研究是一個充滿風險的事情,需要投入大量的資源,但結果往往難以預料,這時候,就非常需要這位帶頭大哥對業務、行業、市場、對手等等有充分的了解,才能做出正確的抉擇。

以上是我在日常招聘和管理中的拙見,歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 和 「數據分析師-從零入門到精通」。


數據挖掘,不是簡單的把數據呈現出來,而是要挖掘出數據之間隱藏著的不知道的關係、信息。

可以用,數據會說話來描述。

技術分類:預言:用歷史預測未來;描述:了解數據中潛在的規律。

相關技術包括:關聯,序列發現,分類,聚集,異常檢測,匯總,回歸,時間序列分析。

可以一個個學習。

數據挖掘的核心是演算法。

PS:今天剛剛開始上數據挖掘的課程,把課堂上的現學現賣一下。


數據挖掘就是,挖掘數據


從海量數據中,挖掘出有價值的知識,模式。

說的最多的應該就是沃爾瑪啤酒和尿布的例子來。


簡單說就是從數據中找出規律,並有實際應用場景


  大數據挖掘要做的就是把上述類似的商業運營問題轉化為數據挖掘問題,如何將商業運營問題轉化為大數據挖掘問題,我們該如何把上述的商業運營問題轉化為數據挖掘問題?可以對數據挖掘問題進行細分,分為四類問題:分類問題、聚類問題、關聯問題、預測問題。

  1、分類問題

  用戶流失率、促銷活動響應、評估用戶度都屬於數據挖掘的分類問題,我們需要掌握分類的特點,知道什麼是有監督學習,掌握常見的分類方法:決策樹、貝葉斯、KNN、支持向量機、神經網路和邏輯回歸等。

  2、聚類問題

  細分市場、細分客戶群體都屬於數據挖掘的聚類問題,我們要掌握聚類特點,知道無監督學習,了解常見的聚類演算法,例如劃分聚類、層次聚類、密度聚類、網格聚類、基於模型聚類等。

  3、關聯問題

  交叉銷售問題等屬於關聯問題,關聯分析也叫購物籃分析,我們要掌握常見的關聯分析演算法:Aprior演算法、Carma演算法,序列演算法等。

  4、預測問題

  我們要掌握簡單線性回歸分析、多重線性回歸分析、時間序列等。

推薦閱讀-多智時代:大數據時代來臨,大數據的價值主要體現在哪幾個方面? - 大數據 多智時代


想知道雲計算和數據挖掘的區別和聯繫,感覺好像雲計算也是關於整合條件來配對需求和供給的。我只是個曾經學經濟的文科生,如果說錯了各位大神別打我。


數據挖掘(英語:Data mining),又譯為資料探勘、數據採礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

——百度百科


推薦閱讀:

KDD2015的頁面是怎麼做到將1G多的數據壓縮成0的?
想學習製作優質的可讀性高又富有設計感的可視化大數據圖,需要學會哪些工具?
如何獲取Google Play上APP信息和用戶評價的數據集?
和 Python 相比,Matlab 能否成為深入學習數據挖掘的工具?
大數據,數據挖掘,機器學習三者什麼區別和聯繫?

TAG:數據挖掘 |