大數據,數據挖掘,機器學習三者什麼區別和聯繫?

大數據,數據挖掘,機器學習三者什麼區別和聯繫?求科普


大數據就是許多數據的聚合;

數據挖掘就是把這些數據的價值發掘出來,比如說你有過去10年的氣象數據,通過數據挖掘,你幾乎可以預測明天的天氣是怎麼樣的,有較大概率是正確的;

機器學習嘛說到底它是人工智慧的核心啦,你要對大數據進行發掘,靠你人工肯定是做不來的,那就得靠機器,你通過一個模型,讓計算機按照你的模型去執行,那就是機器學習啦。

說得很直白,大牛看起來或許很水,希望能夠幫到你。如果你關注大數據,歡迎訂閱我們的信微:數據客 ID: idacker


可以認為大數據、數據挖掘和機器學習是三個平行的概念。大數據側重描述數據,數據挖掘側重描述應用,機器學習側重描述方法。當然,數據是基礎,是挖掘和學習的「燃料」(Ng說深度學習像火箭,計算是引擎,數據是燃料)。

大數據的內涵,是從數據量、數據類型和數據增長速度的角度描述數據。由於這些特點,數據的存儲、傳輸、計算、處理、分析等,都是傳統方式難以應對的,相關的技術就要升級,新的技術棧通常基於分散式架構解決,而分散式架構又帶來一致性、資源調度、性能優化等多種問題,由此批處理、流計算、圖計算、即席查詢等方向都有發展。

數據挖掘是指從大量數據中挖掘出有價值的潛藏規律和知識。數據挖掘渴望完整而真實的原始數據,去噪和樣本平衡很重要。實施過程涉及機器學習、模式識別、統計學、分散式存儲、分散式計算、可視化等,還需要掌握領域專業知識。

機器學習是從數據中獲取經驗進而改善系統性能的一類重要方法,「學習」的意義就是求解最逼近真相的經驗,理論基礎主要是統計學。數據挖掘經常需要採用機器學習方法,但目前機器學習主要是想實現某種程度的人工智慧。


- - 大數據是前提,沒有大數據,挖也沒啥挖~


機器學習方法在大型資料庫中的應用稱為數據挖掘(data mining)。

在數據挖掘中,需要處理大量的數據以構建簡單有效的模型,如具有高精度的預測模型。

具體應用如:

零售業分析歷史數據,來構建市場應用模型;

製造業的學習模型用於故障檢測;

物理學、天文學、生物學的海量數據分析;

etc

——Alpaydin E. Introduction to machine learning[M]. MIT press, 2014.


大數據是忽悠;數據挖掘是為忽悠找理由的過程;機器學習是一種忽悠方法,比較流行。


要想明白,大數據、數據挖掘、機器學習三者之間的區別和聯繫,首先要知道三者的具體定義,然後,再進行區別和聯繫:

大數據也叫巨量數據和海量數據,與雲端這個熱門關鍵詞,受到媒體關注時如出一轍,都沒有明確的定義,所謂的大數據,就是用現有的一般技術難以管理的大量數據「。」用現有的一般技術難以管理「,指的是目前企業資料庫主流的關係資料庫已無法管理結構複雜的數據,或是因為量的增加,導致查詢數據的反應時間超過容許範圍等等的龐大數據。

數據挖掘,也稱為數據勘探,是指在龐大的資料庫當中,利用各種技術與統計方法,將大量的歷史數據進行分析,歸納與整合等工作,找出有趣的特徵,並且有意義的數據。

機器學習, 是一門多領域交叉學科,涉及概率論、統計學、凸分析、演算法複雜度理論等多門學科。專門研究計算機是怎樣模擬或實現人類的學習行為,以獲取新的知識和技能,重新組織已有的知識結構,使其不斷改善自身性能。

數據挖掘是從海量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘中用到了大量的機器學習界提供的數據分析技術和資料庫界提供的數據管理技術。

從數據分析的角度來看,數據挖掘與機器學習有很多相似之處,但不同之處也十分明顯,例如,數據挖掘並沒有機器學習探索人的學習機制這一科學發現任務,數據挖掘中的數據分析是針對海量數據進行的。

從某種意義上說,機器學習的科學成分更重一些,而數據挖掘的技術成分更重一些,數據挖掘是從目的而言,機器學習是從方法而言的,兩個領域有相當大的交集,但不能等同,大數據和數據挖掘,並沒有大的區別,大數據包含數據挖掘,這兩者之間的區別,還是很好理解的,雲計算、大數據、物聯網,是多智時代的名詞,一定要明白,雲計算、大數據和物聯網三者之間,有哪些區別和聯繫? - 大數據 多智時代


推薦閱讀:

請問大家如何從移動運營商的數據中提取商業價值呢? ?
sql server、my sql、oracle與hadoop哪個才是未來趨勢?到底有什麼區別?
數據挖掘和機器學習中如何在高維空間上觀察模型的效果?
機器學習和數據挖掘的界限在哪裡?
大數據和「數據挖掘」是何關係?

TAG:數據挖掘 | 機器學習 | 大數據 |