數據挖掘、機器學習、深度學習這些概念有區別嗎?

感覺不一樣,但又感覺差不多啊。


數據挖掘:也就是data mining,是一個很寬泛的概念。字面意思就是從成噸的數據裡面挖掘有用的信息。這個工作BI(商業智能)可以做,數據分析可以做,甚至市場運營也可以做。你用excel分析分析數據,發現了一些有用的信息,然後這些信息可以指導你的business,恭喜你,你已經會數據挖掘了。

機器學習:machine learning,是計算機科學和統計學的交叉學科,基本目標是學習一個x-&>y的函數(映射),來做分類或者回歸的工作。之所以經常和數據挖掘合在一起講是因為現在好多數據挖掘的工作是通過機器學習提供的演算法工具實現的,例如廣告的ctr預估,PB級別的點擊日誌在通過典型的機器學習流程可以得到一個預估模型,從而提高互聯網廣告的點擊率和回報率;個性化推薦,還是通過機器學習的一些演算法分析平台上的各種購買,瀏覽和收藏日誌,得到一個推薦模型,來預測你喜歡的商品。

深度學習:deep learning,機器學習裡面現在比較火的一個topic(大坑),本身是神經網路演算法的衍生,在圖像,語音等富媒體的分類和識別上取得了非常好的效果,所以各大研究機構和公司都投入了大量的人力做相關的研究和開發。

總結下,數據挖掘是個很寬泛的概念,數據挖掘常用方法大多來自於機器學習這門學科,深度學習是機器學習一類比較火的演算法,本質上還是原來的神經網路。


「用機器學習的方法來進行數據挖掘。」機器學習是一種方法;數據挖掘是一件事情;還有一個相似的概念就是模式識別,這也是一件事情。

至於深度學習只是機器學習的一個子類;


數據挖掘(Data Mining)是從海量數據中「挖掘」隱藏信息;數據挖掘採用的一個重要方法,是機器學習(Machine

Learning),即通過程序積累經驗,但機器學習是另一門學科,並不從屬於數據挖掘,二者相輔相成;而深度學習(Deep

Learning)是機器學習的一個子集,就是用複雜、龐大的神經網路進行機器學習。

數據挖掘,顧名思義就是從海量數據中「挖掘」隱藏信息,按照教科書的說法,這裡的數據是「大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據」,信息指的是「隱含的、規律性的、人們事先未知的、但又是潛在有用的並且最終可理解的信息和知識」。在商業環境中,企業希望讓存放在資料庫中的數據能「說話」,支持決策。所以,數據挖掘更偏嚮應用。為了做好數據挖掘,企業又要建立數據倉庫。

機器學習,就是利用計算機、概率論、統計學等知識,通過給計算機程序輸入數據,讓計算機學會新知識,是實現人工智慧的途徑,但這種學習不會讓機器產生意識。機器學習的過程,就是通過訓練數據尋找目標函數。數據質量會影響機器學習精度,所以數據預處理非常重要。

深度學習是機器學習的一種,現在深度學習比較火爆。在傳統機器學習中,手工設計特徵對學習效果很重要,但是特徵工程非常繁瑣。而深度學習能夠從大數據中自動學習特徵,這也是深度學習在大數據時代受歡迎的一大原因。

傳統數據挖掘主要針對相對少量、高質量的樣本數據,機器學習更多的是針對海量、混雜的大數據。但機器學習並不一定要全局數據,只是在大數據時代,堆數據、堆機器的方法在工業界成本低而見效快,被廣泛採用。學術界當前有很多研究在結合小數據學習與大數據學習,比如香港科技大學楊強教授的遷移學習。

參考:

機器學習常見演算法分類匯總

http://www.cnblogs.com/maybe2030/p/4665816.html

對於機器學習過程,想要更通俗的解釋,可以參考這篇文章:

趣文:如何向外行解釋機器學習和數據挖掘

趣文:如何向外行解释机器学习和数据挖掘

題外話,@探索者19

的圖確實不太準確,機器學習按照學習方式的維度劃分,可以分為監督學習(輸入數據有一個明確的標識或結果)、無監督學習、半監督學習、強化學習。當然,深度學習也包括有監督深度學習和無監督深度學習。


數據挖掘就不講了,

關於機器學習與深度學習這兩個概念,我所知道的是這樣的:

以上是一個簡化版,複雜一點的是這樣的:

這其中有很多名詞我都不太理解。

我們也看到有些分類在層級上有些問題,比如人工智慧的分類是按它的應用領域來劃分的,與機器學習的應用領域有很多重複的,也就是說很多時候我們說的「人工智慧」與「機器學習」就是一回事。但,,,它們之間肯定是有區別的!

關於深度學習與神經網路之間的關係,我的依據是這句話:

深度學習的概念源於人工神經網路的研究。

雖然話是這麼說的,但其實我還是分不清機器學習與深度學習有什麼區別~

如果你像我一樣糾結這幾個概念,也許你也曾搜索到這篇文章:為什麼說深度學習和機器學習截然不同?_網易科技

然後並沒有看到文章中哪裡講到了它們的區別!

我們可以明確的是:AI&>ML&>DL

但除了這層關係外,它們之間還有什麼區別我就不知道了。

我覺得問題的核心是

  • 比如與機器學習同一級的概念「搜索演算法」,「知識獲取」之類的是什麼?為什麼是與「機器學習」是同一級的概念?
  • 我們看到「深度學習」是「神經網路」的其中一種實現方式,那麼,神經網路除了「深度學習」還有什麼呢?


添加一個了解的角度:數據挖掘概念火爆的時候,數據倉庫正當家。機器學習是隨著大數據概念為人熟知的。深度學習是神經網路演算法的新近發展,是隨著機器學習概念被廣知的。

數據挖掘作為一眾數據分析技術的統稱,出現較早。彼時有餘資料庫處理能力局限等原因,強調從抽樣數據出發分析數據全集。

機器學習嚴格來說與數據挖掘不是對等概念,仍屬於數據挖掘範疇。只不過更多地基於大數據理念出發,直接在數據全集中進行分析,故而有「學習」一說。

深度學習是deep learning的中譯,原文顯然是一個形容詞,用來修飾「神經網路演算法」。

如果把數據挖掘認為是基於局部數據猜測全局狀態的技術,而強調機器學習是直接在全局數據中習得關聯規律的話,深度學習在兩種場景下都有應用,但在大數據時代更加出彩。


比如你訓練一隻狗:

若干年後,如果它忽然有一天能幫你擦鞋洗衣服,那麼這就是數據挖掘;

要是忽然有一天,你發現狗化裝成一個老太婆消失了,那麼這就是機器學習。

by 楊強:Qiang Yang,香港科技大學


英特爾硬廣


數據挖掘、機器學習、深度學習之間的概念,還是有很大區別的,數據挖掘,也可以叫數據深層採集,數據勘探,利用各種技術與統計方法,將大量的歷史數據,進行整理分析,歸納與整合。

數據挖掘為找尋隱藏在數據中的有用信息,如趨勢、特徵及相關的一種過程,也是從數據當中挖掘出知識。

機器學習演算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的演算法,因為學習演算法中涉及了大量的統計學理集結,機器學習與統計推斷學聯繫尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的、行之有效的學習演算法。很多推論問題屬於無程序可循難度,所以部分的機器學習研究是開發容易處理的近似演算法。

機器學習已經有了十分廣泛的應用,例如:數據挖掘、計算機視覺、自然語言處理、生物特徵識別、語音、手寫識別和機器人運用。

深度學習,它是機器學習的一個新領域 ,其動機主要在於建立、模擬人腦的思考、分析學習的神經網路,可以說是類腦,主要是模仿人腦的機制來解釋數據,比如,圖像、聲音和文本。

統計學、資料庫和人工智慧共同構造了數據挖掘技術的三大支柱,許多成熟的統計方法構成了數據挖掘的核心內容,數據挖掘與機器學習、統計學、模式識別、資料庫、領域知識的差別、關係和影響? - 大數據 多智時代


這樣說來,看了王火火的評論,感覺不論是數據挖掘還是深度學習,都是來源於機器學習了。最近深度學習是很火,尤其是阿里推出的比賽,好像最後勝出的都是使用的深度學習,那麼他們具體在處理的時候是採用的什麼方法呢?


數據挖掘大家都講得很好了,對於機器學習和深度學習的關係,現在不知道怎麼回事總是會把深度學習歸結於機器學習的分支,其實這樣劃分是很不合理的。機器學習的代表是統計學習方法,是概率論與統計學的範疇;而深度學習則是基於神經網路的,是基於神經認知科學發展的產物。


推薦閱讀:

有預算的前提下,GTX 1060與RX 480 孰優孰劣?
IT 行業女生的工作狀況大概是怎樣的?
怎麼了解量子計算PhD男生?
編程破解wifi密碼的難點在哪?
小說《暗算》的年代中還沒有公鑰系統這回事,如果當時就有RSA之類的演算法了,小說的背景(一群人用算盤解密)還能成立嗎?

TAG:數據挖掘 | 計算機 | 數據分析 | 機器學習 | 深度學習DeepLearning |